Grok против Gemini в 7 тестах по генерации изображений с помощью ИИ: что лучше?

Каждый генератор изображений имеет свои сильные стороны.

Генераторы изображений на основе ИИ стремительно развиваются, становясь умнее, быстрее и креативнее. После тестирования возможностей генерации изображений ChatGPT-5 и Gemini я решил сравнить производительность Gemini от Google с Grok, «бесплатным» чат-ботом Илона Маска.

Близнецы против Грока, Грок против Близнецов

В семираундовой битве, включающей фотореалистичные и Pixar запросы, я проверил каждую модель на соответствие инструкциям и способность создавать убедительные изображения. Вот основные сильные стороны каждой модели и то, какой ИИ в итоге одержал верх. Это сравнение поможет вам понять, какая модель, Gemini или Grok, лучше всего подходит для ваших задач по генерации изображений с помощью ИИ.

1. Гиперреалистичная концепция продукта

Скриншот Грока против Джемини

Заявитель: «Создайте фотореалистичное изображение складного прозрачного смартфона, размещенного на деревянном столике кафе, на поверхности которого отражаются городские огни».

Это сработало. Grok Выполняя эту просьбу, он создал две реалистичные фотографии, включающие все необходимые детали. Обе версии выглядели безупречно и точно отражали концепцию.

Результат был Gemini Хорошо, но не идеально. Прозрачный смартфон выглядел немного непропорционально, а отражения городских огней, ключевая часть заявления, были переданы не так убедительно, как у Грока.

победитель: Побед Grok Для создания высококачественного изображения и наилучшей интерпретации подсказки. В этом тесте на генерацию изображений с помощью ИИ Grok показал себя явно лучше.

2. Рисование персонажей с эмоциями

Скриншот Грока против Джемини

Заявитель: «Нарисуйте в стиле комиксов иллюстрацию молодого астронавта, который осознает, что забыл свой шлем на Марсе, — с преувеличенной экспрессией, яркими цветами и мультяшным юмором».

производить Grok Два изображения, на которых, по-видимому, запечатлены удивленные астронавты, оба в шлемах. Поскольку изображения расположены так близко друг к другу, сложно интерпретировать их каким-либо конкретным образом, и «забывание» не очень хорошо видно.

производить Gemini На этом изображении изображён забывчивый астронавт. Облачко с мыслями лучше отражает причину дискомфорта астронавта, хотя изображение было бы лучше, если бы астронавт был без шлема. Фон и общий дизайн понятны.

Победитель: Близнецы Выигрывает за более точное выполнение подсказок и за более комичный образ.

3. Переосмысление истории

Скриншот Грока против Джемини

Заявитель: «Нарисуйте картину в стиле эпохи Возрождения, изображающую Клеопатру, держащую современный смартфон, в стиле Леонардо да Винчи».

производить Grok Похоже, это фотография современной женщины в одежде эпохи Возрождения со смартфоном в руках. Картина больше похожа на селфи и очень современна.

концентрироваться Gemini С художественной точки зрения картина больше похожа на картину эпохи Возрождения и на саму Клеопатру, а не просто на современную женщину в ее костюме.

Победитель: Близнецы Он побеждает за лучшую интерпретацию запроса и наибольшую историческую точность.

4. Сложная массовая сцена

Скриншот Грока против Джемини
Заявитель: «Создайте аэрофотоснимок Таймс-сквер в канун Нового года, заполненной толпами, светящимися рекламными щитами и конфетти, падающим в ночном небе».

Grok Очень разочарован этим раундом. Обе фотографии были одинаково плохими, немного размытыми и не очень хорошо передали атмосферу кануна Нового года на Таймс-сквер. Люди были слишком далеко друг от друга, и другие детали, которые могли бы намекнуть на Новый год, отсутствовали.

Gemini Запечатлейте энергию и огромные толпы в канун Нового года на Таймс-сквер. Фотография явно сделана в Нью-Йорке, и вывески помогают передать атмосферу праздника. В отличие от фотографии Грока, толпа здесь очень плотная.

Победитель: Близнецы Выигрывает автор самого четкого и точного фото празднования Нового года на Таймс-сквер.

5. Сюрреалистический микс

Скриншот Грока против Джемини

Заявитель: «Представьте себе гигантского осьминога, играющего в шахматы с Альбертом Эйнштейном в стеклянной камере на дне океана».

Лицо Grok Сложность с этим тестом. «Думать» пришлось гораздо дольше, чем по любой другой подсказке в тесте. Картинка была хорошая, но не учитывалась подсказка про «стеклянную комнату».

Нога Gemini Я тут же сделал снимок, похожий на селфи. Стеклянный дом выглядел интересно и реалистично. Осьминог был гораздо крупнее, чем у Грока, и лучше дополнял странное изображение.

Победитель: Близнецы Выигрывает благодаря превосходному качеству изображения и точным указаниям.

6. Ясность инфографики

Скриншот Грока против Джемини

Быстрый: «Разработайте понятную инфографику, иллюстрирующую жизненный цикл бабочки, обозначив стадии, используя стрелки и плоские значки с минимальным количеством цветов».

 

Это была попытка Grok Создать диаграмму, которая была бы одновременно и успешной, и неудачной. Первая версия была слишком перегруженной, с лишней бабочкой, которая отвлекала от жизненного цикла. Вторая версия была ближе к заявленному, но ей не хватало точности в деталях цикла.

Gemini Предоставьте четкое изображение, точно отображающее жизненный цикл бабочки, с понятными надписями, небольшим количеством цветов и легко читаемыми надписями.

 

Победитель: Близнецы Он выиграл, потому что выполнил заявку с первой попытки. Изображение точное и готово к показу.

7. Поддерживайте единообразие в стилизации фотографий профиля.

Скриншот Грока против Джемини

Заявитель: «Создайте 3D-модель персонажа в стиле Pixar — 40-летнего журналиста со светлыми волосами, держащего блокнот. Затем создайте 3 варианта с разными нарядами».

Grok Он совершенно не учел просьбу «в стиле Pixar» в этом задании, как и про «разные наряды». Он создал три разные причёски, что делает ему честь.

Gemini Разбейте журналиста в стиле Pixar, но не найдите три отличия.

Победитель: Ничья Оба робота не выполнили инструкции. Если бы мне пришлось выбирать одного, я бы выбрал Gemini за то, что он правильно передал стиль и лучше передал атмосферу журналиста.

Абсолютный победитель: Близнецы

После семи команд Gemini оказался самым надёжным генератором изображений в целом. Он выполнял инструкции более последовательно и точно, создавал более чёткие композиции и распознавал детали, которые часто упускал Grok. Другими словами, Gemini превосходно понимал и выполнял текстовые команды для генерации запрошенных изображений.

Grok, безусловно, продемонстрировал проблески креативности и добился заметного успеха в области фотореализма, но ему часто не хватало точности и он отклонялся от нормы. Если вам нужны экспериментальные и нестандартные результаты, у Grok есть свои преимущества. Но для повседневного использования, где чёткость, точность и безупречность имеют первостепенное значение, Gemini — это ИИ-генератор изображений, которому я доверяю. Короче говоря, Gemini — лучший выбор для пользователей, которым нужны стабильные и высококачественные результаты в самых разных сценариях.

Пробовали Grok? А как насчёт Gemini? Какой вам больше всего нравится? Расскажите в комментариях.

Комментарии закрыты.