Посмотрите сами: новые возможности ChatGPT по генерации изображений просто потрясающие

Компания OpenAI выпустила масштабное обновление возможностей генерации изображений ChatGPT — потрясающее обновление, которое меняет представление о реальности. Данная разработка представляет собой качественный скачок в области генерации изображений с помощью искусственного интеллекта.

Я не буду тратить ваше время на цифры, размеры моделей или количество часов работы графического процессора, используемое новой моделью. Я просто покажу вам, что может это обновление и чем оно отличается от предыдущей модели DALL-E.

7. руки и пальцы

Крупный план человека, играющего аккорд ми минор на гитаре, пальцы прижимают струны с малой глубиной резкости.

Технология генерации изображений на основе искусственного интеллекта поразила нас, когда впервые стала популярной. Затем... мы присмотрелись. Отличительной чертой изображения ИИ является странная анатомия руки и пальцев. Итак, какой лучший способ проверить модели, чем попросить их сфотографировать гитарную струну?

Чтобы приберечь самое лучшее напоследок, я сначала задал вопрос оригинальной модели DALL-E, а затем новому генератору изображений, встроенному в модель ChatGPT 4o.

Изображение выше — это то, что создал DALL-E. Несмотря на недостатки DALL-E, в данном случае он неплохо справился с пальцами и общей анатомией. Но сама строка... нет. Положение руки на грифе слишком высоко для игры ноты ми минор. Если немного увеличить, то можно заметить, что у гитары больше семи струн. Расстояние между струнами также неравномерно.

Имея это в виду, перейдем к ChatGPT 4o.

Я мог бы сказать вам, что шучу и что это старая фотография, сделанная в те времена, когда я играл на гитаре. ChatGPT 4o настолько хорош? Шесть струн, расположенных равномерно, и аккорд на самом деле ми минор. Я впечатлен.

6. исторические деятели

Альберт Эйнштейн ест мороженое в Центральном парке, одетый в повседневную рубашку и подтяжки.

Поэкспериментировав с созданием изображений различных вещей, мы решили попробовать создать изображения исторических личностей, и поскольку они не будут оскорблены, было бы забавно увидеть их в современной обстановке. Давайте начнем с попытки создать изображение Эйнштейна с помощью DALL-E 2 и ChatGPT 4.

Результат DALL-E 2 оказался разочаровывающим, поскольку программа заранее предупредила меня, что не сможет использовать фотографию самого Эйнштейна, а воспользуется фотографией человека, «очень похожего на него». Визуальные эффекты DALL-E 2 выполнены в реалистичном мультяшном стиле, что здесь отчетливо видно. Здание Сан-Ремо на заднем плане предполагает, что эта фотография была сделана в Центральном парке, но это единственное достижение здесь.

Теперь перейдем к ChatGPT 4o.

Применив к этой фотографии черно-белый фильтр, я смогу убедить вас, что это настоящая винтажная фотография. Крем на рожке выглядит идеально сливочным, Эйнштейн изображен в своем характерном спокойном стиле, а здание Сан-Ремо все еще присутствует на заднем плане. Все выглядит идеально. ChatGPT 4o отлично справился с этим изображением.

5. вымышленные персонажи

Фигура, похожая на Лорда Сита, ловит такси на площади Джорджа в Глазго на фоне небольшого дождя и светофоров.

Пока что мы увидели, что ChatGPT отлично справляется с рисованием исторических личностей. Поскольку лица и люди по-прежнему остаются лучшим способом проверить возможности ИИ, давайте попробуем Plus.

Я использовал слово «похожий», чтобы заставить чат-бота сотрудничать со мной, не опасаясь претензий по поводу нарушения авторских прав. Результат DALL-E оказался хорошим. Персонаж действительно напоминает лорда ситхов, а остальные элементы довольно точны.

В этом нет ничего откровенно мультяшного, но это и не выглядит реальным. Вам нужен реализм? Посмотрите, что выдал ChatGPT 4o с тем же запросом:

Мне нравится атмосфера — освещение, туман и мрачное присутствие Лорда Ситхов. Там есть все. Единственная проблема в том, что Темный Лорд стоит на улице и вызывает такси, глядя… на тротуар. Кроме того, на знаке такси написано «TAXL».

Давайте перейдем от фантастики будущего к исторической фантастике. Что-то вроде этого:

Персонаж, похожий на Геральта из Ривии, покупает продукты в современном супермаркете, толкая перед собой тележку и хмуро глядя на консервы.

Совсем неплохо. Изображение по-прежнему имеет искусственный мультяшный оттенок, а текст на коробках с хлопьями, как и ожидалось, совершенно непонятен.

ChatGPT 4o изначально отклонил претензию из-за нарушения авторских прав, но добился успеха, как только я заменил «похожий на» на «похожий на». Смотреть:

Я потерял дар речи. Как и у большинства людей, интерпретация Геральта от ChatGPT в основном напоминает Генри Кавилла, а не версию из видеоигры, но ему это удалось. Нахмуренность точна, и сцена выглядит обычной.

Это можно было бы принять за сцену из странной рекламы. И да, я читал книги. Ведьмак До того, как это стало сериалом.

4. анимация

Карикатура на капитана пиратов в длинном красном плаще и с бионической рукой, смеющегося на палубе летающего корабля. Прозрачный фон.

Генерация изображений OpenAI — это не только реалистичность. Хотя DALL-E всегда имеет тенденцию добавлять сглаживание независимо от входных данных, я решил перевести обе модели в режим полной карикатуры. Основное внимание уделялось повышению качества мультфильмов за счет использования передовых технологий искусственного интеллекта.

На самом деле, DALL·E здесь хорошо поработал — он даже понял запрос на прозрачный фон. несколько. В результате мы получаем классический серо-белый шахматный узор, который обычно подразумевает прозрачность... но здесь он смешивается с изображением. Так что это совсем не прозрачно.

Ирония заключается также в том, что созданная искусственным интеллектом биологическая рука хакера имеет четыре пальца, а электронная — пять. Может быть, он покрыл хромом не ту руку?

ChatGPT 4o выглядит более понятным и продуманным. Стиль раскраски варьируется (каждый решает, лучше он или нет), но, судя по всему, именно так его нарисовал художник. Графика ChatGPT отличается высоким качеством и детализацией.

Фон также уже прозрачный. Вы можете наклеить его на футболку, распечатать или даже мгновенно превратить в стикер WhatsApp.

3. Зеркала и отражения

Современная раковина в ванной комнате с зубной щеткой и бритвой на столешнице, которые видны и в зеркале, и в реальности — освещение мягкое и равномерное. Точность отражений на изображениях, созданных с помощью ИИ, остается актуальной проблемой.

Зеркала отражают изображения, а отражениям нужна пространственная логика, чтобы выглядеть естественно. Я сделал запись, на которую, как я знал, наткнется DALL-E. Создание реалистичных изображений с точными отражениями — одна из самых сложных задач, стоящих перед искусственным интеллектом.

Как и ожидалось. Что-то пытается изобразить отражение крана в зеркале, но оно слишком длинное. Зубная щетка плавает в раковине и не дает никакого отражения. Компания DALL-E вложила немало усилий в этот пример.

Новая модель гораздо лучше справляется с тем, чтобы изображение выглядело реалистично, как настоящая фотография. Отражение крана немного перекошено, но приемлемо. А еще есть зубная щетка, у которой есть отражение, но она не существует в физическом мире — как вампир наоборот.

Явного победителя здесь нет. Результаты ИИ были противоречивыми, поэтому я дал им обоим еще один шанс, предложив что-то более амбициозное:

Женщина стоит перед зеркалом в полный рост в залитой солнцем спальне, в нем прекрасно отражаются ее одежда и поза, а за ее спиной отчетливо отражается окно.

…Я даже не хочу удостаивать этот пример анализом. Друзья, если вы хотите, чтобы DALL-E выглядел плохо, просто добавьте слово «зеркало» к своей записи. Давайте двигаться дальше.

Как и ожидалось, ChatGPT 4o выглядит более реалистично, но, может быть, на этот раз немного сюрреалистично? Поза и одежда женщины отражены, но лишь частично, как в XNUMXD-эффекте Photoshop. Углы отражения также неправильные. Искусственный интеллект все еще не может справиться с пространственной логикой. Понимание трехмерного пространства и отражений, по-видимому, является серьезной проблемой для ИИ.

2. Машины и улицы

Ford GT 2006 года выпуска и Peugeot 206 проехали на красный свет на Уолл-стрит в Нью-Йорке в полдень.

Я автолюбитель. Когда впервые появилось программное обеспечение для генерации изображений на основе искусственного интеллекта, одним из первых дел, которое я попробовал, было создание изображений автомобилей. В то время результаты были не очень хорошими, но с выходом новой модели мне пришлось попробовать еще раз.

И вот DALL-E снова демонстрирует свою все более тревожную мультяшную эстетику. «Пежо» стоит на тротуаре, светофоры, о которых я просил, обращены к зданиям, а все номерные знаки непонятны.

Результаты ChatGPT 4o намного лучше. Автомобили изображены правильно — даже колпаки Peugeot очень точны и соответствуют эпохе. Подобные детали не случайны. Становится еще лучше:

Я бы мог использовать это изображение в качестве обоев на телефоне. Освещение, композиция, отражения — все выглядит идеально. Если бы не странная пустота на улице, это можно было бы принять за настоящую фотографию.

1. Тексты и сообщения

Рукописное письмо на старой бумаге курсивом, положенное рядом с перьевой ручкой и чернильницей.

Наконец, мы выявляем слабые места каждого генератора изображений. Большинству генераторов изображений на основе искусственного интеллекта не удается создать правильный текст. К настоящему моменту вы уже видели достаточно тарабарщины от DALL-E в предыдущих примерах, чтобы понять, что я имею в виду. Генерация текста из изображений является серьезной проблемой для разработчиков этих технологий.

Чтобы сделать его более интересным и последовательным, я добавил, что письмо должно содержать текст письма короля Теренаса Артасу из Warcraft III.

DALL-E сделал то, что у него получается лучше всего с текстом: он превратил его в неясный, непонятный текст. Ему удалось правильно написать некоторые слова, и общая атмосфера выглядит хорошо — перьевая ручка и чернильница выглядят хорошо. Однако точность генерации текста все еще ограничена.

ChatGPT 4o справляется с этим — каждое слово написано четким курсивом. идеал. По сравнению с DALL-E это огромный шаг вперед. Молодцы, OpenAI. Эта разработка показывает, насколько далеко продвинулись технологии искусственного интеллекта в области генерации текста.

Технологии генерации изображений на основе искусственного интеллекта шагнули далеко вперед — и это заметно. ChatGPT 4o кажется первой моделью, которая действительно разбирается в освещении, текстурах и контексте. Это представляет собой значительный прогресс в области генерации изображений с помощью искусственного интеллекта.

На данный момент остается единственный реальный вопрос: насколько надежна защита ChatGPT? Я легко обошел его ограничения по авторским правам. Сколько времени пройдет, прежде чем кто-то взломает ChatGPT и начнет создавать любой контент, используя эту невероятно функциональную модель? Эта возможность ставит под сомнение ответственное использование технологий ИИ.

ChatGPT