Я испытал воплощение Gemini Live, чтобы понять мир: Шок!

Неприятно слышать, как искусственный интеллект разговаривает странно дружелюбным тоном и просит меня убрать беспорядок на моем рабочем месте. Я этим весьма горжусь, но, думаю, пришло время сложить беспорядочно разбросанные инструменты и навести порядок в проводах.

Моя сестра тоже согласилась бы. Но более масштабная картина — это когда ИИ начинает действовать после того, как «увидит» мой стол, распознает беспорядок и предложит советы по ведению домашнего хозяйства. Чат-бот Gemini AI от Google теперь умеет именно это. И многое другое.

Секрет успеха здесь — недавнее обновление функции под названием Project Astra. Он находился в разработке в течение многих лет и, наконец, начал выпускаться в начале этого месяца. Основная идея заключается в том, чтобы создать на вашем телефоне всевидящий, всеслышащий и открыто разумный ИИ.

Google продвигает эти супервозможности под довольно невдохновляющим названием: Gemini Live с камерой и совместным использованием экрана. Разработанный подразделением DeepMind, компания начала разрабатывать его как универсального помощника на основе искусственного интеллекта. Жаль, что финальное название не амбициозное.

Главный экран Gemini Live с камерой и возможностью совместного использования экрана.

Начнем с режима доступа. Теперь эта возможность доступна пользователям. пиксель 9 и Galaxy S25. Но если у вас есть телефон на базе Android с подпиской Gemini Advanced, вы можете получить доступ к новому набору инструментов.

Кстати, это будет стоить 20 долларов в месяц. Я попробовал это на двух вышеупомянутых телефонах, и теперь это работает и на моем OnePlus 13. А что самое приятное? Вам не придется проходить никаких технических преград, чтобы достичь этого.

Все, что вам нужно, — это сочетание кнопок питания и регулировки громкости или проведение пальцем по углу экрана, чтобы вызвать Близнецов. Независимо от того, какое приложение вы используете, вы можете получить доступ к новой камере и общему экрану в виде наложения в любом уголке ОС.

Понимание окружающего мира

Я начал наводить камеру на картину и спрашивать о ней. Gemini Live удалось точно определить, что картина написана в стиле мадхубани, расшифровав смелое использование цветов и изображение животных.

Распознайте картину с помощью Gemini Live с камерой и демонстрацией экрана.

Затем он дал мне краткий урок истории и рассказал о различиях, которые возникли за эти годы. Информация была точной вплоть до мельчайших подробностей. К счастью, вы также можете общаться с Gemini по тексту, если находитесь в месте, где голосовое общение может быть неудобным.

Что мне больше всего нравится в новой функции демонстрации камеры и экрана Gemini Live, так это то, что она не слишком болтливая. Вы можете прервать собеседника в любой момент, что добавляет привлекательности «естественному» общению.

Я пробовал Gemini в разных сценариях. Я не был к этому готов.

Ответы, которые он дает, обычно кратки, как будто он хочет дать вам шанс (или даже подтолкнуть) задать уточняющий вопрос, а не давать слишком длинный ответ. Он превосходен во всем спектре визуальных тем и сценариев, но есть и некоторые подводные камни.

Общение посредством текста с помощью Gemini Live с возможностью демонстрации камеры и экрана.

Пока что приложение Gemini не поддерживает Google Lens, а это значит, что оно не может сравнивать изображения, которые видит на экране вашего телефона, с результатами в Интернете. Более того, если вы попросите Gemini поискать последние события по какой-либо теме или персонажу, он не сможет получить доступ к информации в реальном времени.

Я расспросил его о видах растений, меню ресторанов, сборе данных с досок объявлений и моем рецепте от недавнего приступа гриппа. Gemini показал себя очень хорошо, лучше любого чат-бота на основе искусственного интеллекта, с которым я когда-либо сталкивался.

Раскрытие банка знаний: углубленный анализ

Далее Близнецы подталкивают вас к пониманию сложных академических предметов. Я поместил в кадр книгу о машинном обучении. Gemini Live не только распознал ее, но и дал мне обзор содержания и основных тем книги. Эта способность отражает глубокое понимание машинного обучения и способность обобщать сложную информацию.

Понимание хинди с Gemini Live с помощью камеры и демонстрации экрана.

Из любопытства я начал листать страницы и наткнулся на список глав. ИИ заметил прогресс, замолчал и спросил меня, интересует ли меня какой-либо конкретный класс, пока я просматриваю список тем. Эта функция демонстрирует способность Gemini адаптироваться и реагировать в режиме реального времени на действия пользователя, что делает его мощным инструментом для интерактивного обучения.

В этот момент я был совершенно удивлен.

Я попросил ИИ проанализировать несколько сложных тем, и он справился с этой задачей достойно, даже выйдя за рамки материала на странице и опираясь на свой собственный обширный банк знаний.

Например, когда я спросил его о содержании вступительной страницы романа Бхишама Сахни «Тамас», ИИ правильно уловил ссылку на премию Sahitya Akademi Award. Затем он упомянул детали, которые даже не были указаны на странице, например, год, когда она получила престижную литературную премию, и о чем роман. Это демонстрирует способность ИИ понимать контекст и извлекать дополнительную информацию.

С другой стороны, читать на хинди с Gemini Live было ужасно. Дело было не просто в плохом акценте, Джемини часто говорил бессмыслицу и чушь. Пытаясь читать на урду, персидском и арабском языках, он делал это гораздо лучше, но часто путал слова в случайных строках. Это говорит о том, что производительность Gemini различается в зависимости от языка и может потребовать значительных улучшений в некоторых языках.

Чтение на урду с помощью Gemini Live с камерой и демонстрацией экрана.

В моей первой попытке прочитать поэзию на урду он не только узнал текст на урду, но и дал точное изложение стихотворения. Самой большой проблемой, опять же, стало повествование. Услышать английскую версию урду было действительно больно для моих ушей. Это подчеркивает важность произношения и акцента для пользовательского опыта, особенно при работе с иностранными языками.

преуспевает в неожиданных местах

Искусственный интеллект — великолепный инструмент решения проблем, и существует множество тестов, подтверждающих это. Я проверил его на физических задачах, связанных с термодинамикой, электрохимическими уравнениями и статистическими задачами, которые были написаны от руки в тетради. Gemini Live отлично справилась с этими задачами.

Он даже преуспел в выполнении творческих заданий. Моя сестра, модельер, показала один из своих эскизов в объективе камеры, попросив дать отзывы и внести улучшения. Gemini Live начал с похвалы дизайну, провел сравнения с идеологиями дизайна нескольких модных брендов и дал несколько рекомендаций. Эти рекомендации оказались очень полезными для улучшения дизайна.

Сканирование книги с помощью Gemini Live с камерой и демонстрацией экрана.

Когда ИИ предложили внедрить Plus, он также посоветовал моей сестре лучшие инструменты для преобразования нарисованных от руки эскизов в цифровые концепции. Он сопровождал эти советы полезной информацией о программном пакете и о том, где найти обучающие материалы. Этот совет оказался бесценным для оптимизации процесса цифрового дизайна.

Когда я поместил пару батареек Duracell в поле зрения камеры, она не только безошибочно распознала их, но и сообщила мне о местных платформах электронной коммерции, которые могли бы доставить их мне в течение нескольких минут. Эта возможность оказалась особенно полезной для идентификации продуктов и их локальной доступности.

Сервисы, называемые Blinkit и Swiggy Instamart, доступны только в Индии и в основном предназначены для городских районов. Даже в тускло освещенной комнате устройство смогло с первой попытки распознать пару проводных наушников. Это демонстрирует способность искусственного интеллекта распознавать объекты в различных условиях.

Его главная сила — ситуационная осведомленность.

По сравнению с обычным чатом Gemini или тем, что вы найдете в разделе обзора ИИ в поиске Google, чаты Gemini Live более осторожно подходят к распространению знаний, особенно если они носят конфиденциальный характер. Я заметил, что к таким темам, как рекомендации по питанию и лечению, относятся все более осторожно, часто направляя пользователей к поиску соответствующего экспертного ресурса. Это предостережение отражает стремление Google предоставлять точную и надежную информацию, особенно в областях, требующих специализированных знаний.

Некоторые знакомые проблемы

Сканирование наклейки с помощью Gemini Live с камерой и демонстрацией экрана.

Мой главный вывод заключается в том, что трансформация проекта «Астра» в «Джемини» весьма впечатляет. Это взгляд в будущее, на которое способны смартфоны. Благодаря некоторым улучшениям, интеграциям и кросс-прикладным рабочим процессам Google Search может заставить вас почувствовать себя пережитком прошлого. Но сейчас есть несколько вопиющих недостатков.

Несколько раз я замечал, что моя память дает сбой. Когда ИИ попросили идентифицировать фитнес-браслет в поле зрения камеры, он правильно идентифицировал его как Samsung Galaxy Fit 3. Но когда я задал дополнительный вопрос, устройство было ошибочно идентифицировано как фитнес-браслет Huawei.

Он также может откровенно лгать. И с полной уверенностью, я бы сказал. Например, когда я попросил его подвести итог моего обзора носимого устройства, ИИ ответил, что Digital Trends еще не рассматривал его. На самом деле статья была опубликована неделю назад.

Затем я попросил его просмотреть несколько статей на моей странице автора, включив функцию демонстрации экрана. Gemini неплохо объяснили истории, но иногда спотыкались на понимании контекста. Например, в нем неверно утверждалось, что только Intel и AMD могут производить нейронные процессоры (NPU), имеющие право на получение значка. Второй пилот+.

Оповещение о Gemini Live с возможностью совместного использования камеры и экрана.

С другой стороны, в статье четко указано, что компания Qualcomm первой, опередив конкурентов, достигла этого стандарта. Лишь в конце прошлого года AMD и Intel наконец смогли выйти на новый уровень и выйти на базовый уровень чипов для искусственного интеллекта, выпустив новую линейку процессоров.

Во время обсуждения статьи у него снова возникли проблемы с памятью. Вместо того чтобы подвести итог обсуждаемой истории, он вернулся к рассказу о первой статье, которую увидел через демонстрацию экрана. Когда я прервал его во время повествования, Джемини исправил его ошибку.

Еще одна проблема, которую я заметил при озвучивании на языках, отличных от английского, заключалась в том, что Gemini Live случайным образом менял голос и скорость в середине повествования. Это было крайне раздражающе, а произношение было совершенно роботизированным, совершенно не похожим на его человеческие навыки владения английским языком.

Чтение отрывка с помощью Gemini Live с демонстрацией камеры и экрана.

Трудности машинного зрения возникают также при работе с плавными линиями. В нескольких случаях он уверенно выдавал неверную информацию, а когда его просили исправиться, ИИ выражал неспособность найти самую актуальную информацию по теме. Подобные сценарии редки, но ошибки Близнецов сохраняются.

Подводя итог, я считаю, что Gemini Live с его камерой и возможностью совместного использования экрана — один из самых больших прорывов в развитии искусственного интеллекта на сегодняшний день. На сегодняшний день это одно из самых практичных и плодотворных применений генеративного ИИ. Все, что ему нужно, — это немного разнообразия и лекарство от синдрома «уверенного лжеца».

Сейчас все определенно идет по правильному пути, в подавляющем большинстве случаев, но нам все еще не хватает нескольких важных вех, чтобы стать идеальным компаньоном ИИ для воплощения техно-футуристских мечтаний.

Комментарии закрыты.