Nvidia помогает решать самые сложные задачи генерации изображений с помощью ИИ.

Высокие требования к мощности и вычислительным ресурсам являются фундаментальной проблемой в области ИИ, особенно в таких задачах, как создание мультимедиа. На мобильных телефонах при локальном запуске этих задач только несколько дорогих устройств с мощными процессорами могут поддерживать этот набор функций. Даже при масштабной реализации в облаке это дорогостоящий процесс.

Nvidia, возможно, без лишнего шума решила эту проблему в партнерстве с Массачусетским технологическим институтом и Университетом Цинхуа. Команда создала гибридный инструмент генерации изображений на основе искусственного интеллекта под названием HART (Гибридный автотрансформатор) по сути объединяет два наиболее широко используемых метода генерации изображений на основе ИИ. Результатом является очень быстрый инструмент со значительно меньшими вычислительными требованиями.

Чтобы дать вам представление о том, насколько она быстра, я попросил ее создать изображение попугая, играющего на бас-гитаре. Следующее изображение было получено примерно через секунду. Я едва успевал следить за полосой прогресса. Когда я использовал те же данные для ввода в форме Google Изображение 3 На Gemini это заняло около 9–10 секунд при скорости интернет-соединения 200 Мбит/с.

Огромный скачок в создании изображений с использованием искусственного интеллекта

Когда ИИ-изображения начали набирать популярность, движущей силой стала технология диффузии, которая легла в основу таких продуктов, как генератор изображений Dall-E от OpenAI, Imagen и Stable Diffusion от Google. Этот метод позволяет получать изображения с высоким разрешением и детализацией. Однако для генерации изображений с использованием ИИ требуется несколько этапов, что делает процесс медленным и затратным с точки зрения вычислений.

Второй подход, который в последнее время набирает популярность, — это саморегрессивные модели, которые работают по принципу чат-ботов и генерируют изображения с использованием технологии прогнозирования пикселей. Этот метод быстрее, но он также более подвержен ошибкам при генерации изображений с помощью ИИ.

Команда Массачусетского технологического института объединила оба метода в единый пакет под названием HART. Этот метод основан на модели авторегрессии для прогнозирования сжатых элементов изображения как дискретных токенов, в то время как модель небольшой диффузии берет на себя все остальное, чтобы компенсировать потерю качества. Такой подход сокращает количество используемых шагов с более чем двадцати до всего восьми.

Эксперты HART утверждают, что эта технология «создает изображения, которые соответствуют или превосходят качество современных моделей диффузии, но делает это примерно в девять раз быстрее». HART объединяет авторегрессионную модель с диапазоном в 700 миллионов параметров и небольшую диффузионную модель, которая может обрабатывать 37 миллионов параметров.

Разрешение кризиса стоимости вычислений

Интересно, что этот гибридный инструмент HART смог генерировать изображения, которые были столь же хороши, как и самые современные модели с емкостью 2 миллиарда параметров. Но что самое важное, HART удалось достичь этого результата, сократив скорость генерации изображений в девять раз и сократив при этом вычислительные ресурсы на 31%.

По словам команды, подход с низким уровнем вычислений позволяет HART работать на телефонах и ноутбуках, что является большим успехом. До сих пор такие популярные на рынке продукты, как ChatGPT и Gemini, требовали подключения к Интернету для генерации изображений, поскольку вычисления выполнялись на облачных серверах.

В тестовом видео команда продемонстрировала работу системы на ноутбуке MSI с процессором серии Intel Core и видеокартой Nvidia GeForce RTX. Такую комбинацию вы можете найти в большинстве игровых ноутбуков на рынке, и вам не придется тратить целое состояние.

HART способен создавать изображения с соотношением сторон 1:1 и разрешением 1024 x 1024 пикселей. Уровень детализации этих изображений впечатляет, равно как и стилистическое разнообразие и точность сцен. В ходе тестирования команда отметила, что гибридный инструмент ИИ был в три-шесть раз быстрее и обеспечивал более чем в семь раз большую производительность.

Будущие возможности впечатляют, особенно если объединить возможности обработки изображений HART с языковыми моделями. «В будущем можно будет взаимодействовать с единой генеративной моделью зрения и языка, возможно, попросив ее показать промежуточные этапы, необходимые для сборки предмета мебели», — говорят специалисты Массачусетского технологического института.

Они уже изучают эту идею и даже планируют протестировать подход HART к генерации аудио и видео. Вы можете попробовать это на Веб-панель управления Массачусетский технологический институт.

Некоторые недостатки

Прежде чем углубляться в обсуждение качества, следует отметить, что HART все еще является исследовательским проектом, находящимся на ранней стадии. С технической точки зрения, команда выявила некоторые препятствия, такие как возросшие накладные расходы в ходе процессов вывода и обучения. Ожидается, что в ближайшем будущем эта программа станет свидетелем крупных изменений.

Эти проблемы можно устранить или не замечать, поскольку они незначительны по сравнению с общей картиной происходящего. Более того, учитывая колоссальные преимущества HART с точки зрения вычислительной эффективности, скорости и задержек, эти проблемы могут сохраняться, не приводя к каким-либо существенным проблемам с производительностью.

За время моего короткого опыта работы с HART с использованием текстовых подсказок я был поражен тем, как быстро генерируются изображения. Я ни разу не сталкивался со сценарием, когда бы бесплатному программному обеспечению требовалось больше двух секунд для создания изображения. Даже при наличии подсказок, охватывающих три абзаца (почти 200 слов), HART смог сгенерировать изображения, которые идеально соответствовали описанию.

Помимо точности описания, на фотографиях было много деталей. Однако HART страдает от недостатков типичного программного обеспечения для генерации изображений на основе ИИ. У него возникают трудности с созданием простых фигур и рисунков, таких как прием пищи, расположение персонажей и передача перспективы.

Реализм в человеческом контексте — это одна из областей, где я заметил явные недостатки. В некоторых случаях программа неправильно понимала элементарные вещи, например, путала кольцо с ожерельем. Но в целом таких ошибок было немного, и они были ожидаемы. Многие инструменты ИИ до сих пор не могут сделать это должным образом, хотя они существуют уже некоторое время.

В целом я очень воодушевлен огромным потенциалом HART. Будет интересно посмотреть, создадут ли MIT и Nvidia на его основе продукт или просто внедрят гибридный подход к генерации изображений на основе ИИ в существующий продукт. В любом случае, это проблеск очень многообещающего будущего.