Google запускает Gemini 2.0 Pro и Flash-Lite, соединяя Flash Thinking с YouTube, Картами и Поиском

Серия больших языковых моделей Gemini от Google началась неудачно около года назад с нескольких досадных ошибок в генерации изображений, но с тех пор она постоянно совершенствовалась, и компания, похоже, намерена сделать свою вторую разработку — Gemini 2.0 — самой масштабной и лучшей на сегодняшний день для потребителей и предприятий.

اليوم ، Объявлено Компания объявила о публичном выпуске Gemini 2.0 Flash, представила Gemini 2.0 Flash-Lite и выпустила бета-версию Gemini 2.0 Pro.

Эти модели, разработанные для поддержки разработчиков и предприятий, теперь доступны в Google AI Studio и Vertex AI, при этом Flash-Lite доступен в виде общедоступной предварительной версии, а Pro — для раннего тестирования.

«Все эти модели будут оснащены мультимедийным вводом с текстовым выводом при выпуске, а Plus media станет доступен для всеобщего использования в ближайшие месяцы», — написал технический директор Google DeepMind Корай Чавукчиоглу в сообщении в блоге компании, анонсируя это объявление, — демонстрируя преимущество, которое Google предоставляет, даже несмотря на таких конкурентов, как DeepSeek и OpenAI В создании сильных конкурентов.

Google использует свои мультимедийные возможности

Ни DeepSeek-R1, ни Новая модель o3-mini от OpenAI Принимайте мультимедийные данные, например, изображения, загружаемые файлы или вложения.

Хотя модель R1 может принимать их на своем веб-сайте и в мобильном чат-приложении, она использует оптическое распознавание символов (OCR), технологию, которой более 60 лет, для извлечения только текста из этих загрузок, и не понимает и не анализирует какие-либо другие их функции.

Однако обе они представляют собой новый класс моделей «мышления», которые намеренно уделяют больше времени обдумыванию ответов и размышлению над «цепочками мыслей» и обоснованностью своих ответов. Это контрастирует с типичными большими языковыми моделями, такими как серия Gemini 2.0 pro, поэтому сравнивать Gemini 2.0 с DeepSeek-R1 и OpenAI o3 — это все равно, что сравнивать яблоки с апельсинами.

Но сегодня от Google поступили и некоторые новости с точки зрения мышления: генеральный директор Google Сундар Пичаи объявил через X-платформа Об обновлении приложения Google Близнецы Для мобильных телефонов iOS и Android с Gemini 2.0 Flash Thinking. Модель можно подключить к Google Maps, YouTube и Google Search, что позволит реализовать совершенно новый набор поисковых и интерактивных функций на базе искусственного интеллекта, с которыми новые конкуренты, такие как DeepSeek и OpenAI, не смогут сравниться без этих сервисов.

Я быстро опробовал его в приложении Google Gemini iOS на своем iPhone, пока писал эту статью, и, судя по моим первоначальным запросам, приложение оказалось впечатляющим: оно нашло сходство между 10 самыми просматриваемыми видеороликами YouTube за последний месяц и предоставило мне список ближайших врачебных кабинетов и их часы работы/закрытия — и все это за считанные секунды.

Публичный релиз Gemini 2.0 Flash

Модель Gemini 2.0 Flash, изначально запущенная как бета-версия, стала В декабре, готов к производству сейчас.

Разработанный для высокоэффективных приложений искусственного интеллекта, он обеспечивает ответы с малой задержкой и поддерживает масштабные мультимодальные рассуждения.

Одним из его ключевых преимуществ перед конкурентами является его контекстное окно, или количество токенов, которые пользователь может добавить в качестве поощрения и получить обратно за одно двустороннее взаимодействие с чат-ботом или API на базе LLM.

В то время как многие ведущие модели, такие как новый o3-mini от OpenAI, дебютировавший на прошлой неделе, поддерживают 200000 400 токенов или меньше, что эквивалентно роману объемом 500–2.0 страниц, Gemini XNUMX Flash поддерживает XNUMX миллион токенов, что означает, что он может обрабатывать огромные объемы информации, что делает его особенно полезным для часто выполняемых масштабных задач.

Gemini 2.0 Flash-Lite: недорогие решения на основе искусственного интеллекта

Gemini 2.0 Flash-Lite — это совершенно новая большая языковая модель, призванная предоставлять экономически эффективные решения на основе ИИ без ущерба качеству.

Google DeepMind сообщает, что Flash-Lite превосходит своего полноразмерного (более параметризованного) предшественника Gemini 1.5 Flash по внешним бенчмаркам, таким как MMLU Pro (77.6% против 67.3%) и Bird SQL (57.4% против 45.6%), сохраняя при этом ту же цену и скорость.

Он также поддерживает ввод мультимедиа и имеет контекстное окно на 1 миллион токенов, аналогично полной модели Flash.

В настоящее время Flash-Lite доступен в виде общедоступной предварительной версии через Google AI Studio и Vertex AI, а ее общедоступность ожидается в ближайшие недели.

Как показано в таблице ниже, цена Gemini 2.0 Flash-Lite составляет 0.075 долл. США за миллион токенов (вход) и 0.30 долл. США за миллион токенов (выход). Flash-Lite — очень доступный вариант для разработчиков, превосходящий Gemini 1.5 Flash в большинстве тестов при сохранении той же структуры затрат.

Логан Килпатрик подчеркнул стоимость и ценность моделей Gemini 2.0 Flash, как Упоминается на платформе X«Gemini 2.0 Flash — лучшая модель LLM по соотношению цена/качество, пора строить!»

Фактически, по сравнению с другими ведущими традиционными моделями LLM, доступными через API провайдера, такими как OpenAI 4o-мини (0.15/0.6 долл. США за миллион токенов ввода-вывода) и Антропный Клод ($0.8/$4! за миллион токенов ввода-вывода) и даже традиционный LLM V3 от DeepSeek ($0.14/$0.28), Gemini 2.0 Flash, похоже, является лучшим соотношением цены и качества.

Gemini 2.0 Pro Beta поставляется с 2 миллионами токенов контекстного окна

Модель Gemini 2.0 Pro (бета) теперь доступна для тестирования пользователям, которым требуются более продвинутые возможности ИИ.

Google DeepMind описывает эту модель как самую мощную для производительности программирования и способности обрабатывать сложные запросы. Он оснащен контекстным окном на 2 миллиона символов и расширенными возможностями рассуждений, а также возможностью интеграции внешних инструментов, таких как Google Search и выполнение кода.

Сэм Виттевен, соучредитель и генеральный директор Red Dragon AI и внешний эксперт по разработке машинного обучения в Google, который часто сотрудничает с VentureBeat, рассказал: Профессиональная модель в обзоре YouTube. «Новая модель Gemini 2.0 Pro имеет контекстное окно с 1.5 миллионами иконок, поддерживает виджеты, выполнение кода, вызовы функций и интеграцию с поиском Google — все, что было в Pro XNUMX, но улучшено».

Он также указал на итеративный подход Google к разработке ИИ: «Одним из ключевых отличий стратегии Google является то, что компания выпускает бета-версии моделей до того, как они станут общедоступными (GA), что позволяет проводить быструю итерацию на основе отзывов».

Тесты производительности еще раз демонстрируют возможности семейства моделей Gemini 2.0. Например, Gemini 2.0 Pro превосходит Flash и Flash-Lite в таких задачах, как рассуждение, многоязычное понимание и обработка длинного контекста.

Безопасность ИИ и будущие разработки

Наряду с этими обновлениями Google DeepMind внедряет новые меры безопасности для своих моделей Gemini 2.0. Компания использует методы обучения с подкреплением для повышения точности ответов, применяя искусственный интеллект для критики и улучшения результатов. Кроме того, для выявления уязвимостей используется автоматизированное тестирование безопасности, включая угрозы косвенного внедрения утверждений.

Заглядывая вперед, Google DeepMind планирует расширить возможности семейства моделей Gemini 2.0, и ожидается, что в ближайшие месяцы станут общедоступными дополнительные методы, выходящие за рамки текста.

Благодаря этим обновлениям Google усиливает свои усилия по разработке искусственного интеллекта, представляя набор моделей, разработанных для обеспечения эффективности, доступности и передового решения проблем, реагируя на рост DeepSeek собственным набором моделей, варьирующимся от мощных до очень мощных и от очень доступных до немного менее дорогих (но все еще доступных).

Будет ли этого достаточно, чтобы помочь Google выйти на рынок корпоративного ИИ, на котором ранее доминировал OpenAI, а теперь доминирует DeepSeek? Мы продолжим следить за ситуацией и дадим вам знать!

Если вы хотите произвести впечатление на своего начальника, VB Daily вам поможет. Мы расскажем вам изнутри, что делают компании с генеративным ИИ — от организационных преобразований до практического внедрения, — чтобы вы могли поделиться идеями и максимально повысить рентабельность инвестиций.