Отсутствие Sora 2 в GPT-5: является ли это качественным скачком в технологии видео с использованием искусственного интеллекта?

Давай, OpenAI, нам нужен голос!

Компания готовится OpenAI Чтобы запустить новую версию своей новаторской видеомодели на базе искусственного интеллекта, Сора, где-то в этом квартале. Несмотря на революционность на момент запуска, Sora с тех пор уступила позиции конкурентам, и теперь Veo 3 от Google задаёт золотой стандарт для генерации видео с помощью ИИ.

Я ожидаю, что Sora 2 появится в ближайшие недели или месяцы, учитывая быстрый выпуск GPT-5Как и GPT-4o, GPT-5 изначально является многомодальным, обрабатывая любой тип ввода или вывода (включая видео), выполняя при этом сложные задачи вывода, аналогичные моделям серии «o».

Sora по-прежнему остаётся мощной платформой. Её функция раскадровки открывает новые горизонты, и подписчики могут ChatGPT Pro создаёт клипы длительностью до 20 секунд. Но базовая модель уже устарела. В результате всё ещё наблюдаются проблемы с управлением движением, отсутствует генерация звука и возникают трудности с рендерингом сложной физики — в отличие от Veo 3, Kling 2.1 или MiniMax 2.

Даже в сфере социальных видео OpenAI теперь сталкивается с конкуренцией почти со стороны всех платформ ИИ, включая Meta и Grok и Середина путиТем не менее, OpenAI остаётся крупнейшей в мире лабораторией искусственного интеллекта со значительными ресурсами, и, несмотря на недавние приобретения талантов в Meta, у неё есть сильная команда инженеров. Пока не стоит списывать их со счетов.

Что нужно OpenAI, чтобы сделать Sora конкурентоспособной?

Чтобы конкурировать с моделью Google в области видеотехнологий или новыми китайскими конкурентами в области генеративного видео с использованием искусственного интеллекта, OpenAI необходимо максимально использовать свои мультимедийные возможности, одновременно расширяя набор функций Sora. Более тесная интеграция с ChatGPT также будет полезна. Вот пять ключевых улучшений Sora 2:

1. Генерация оригинального звука: обязательное требование, от которого нельзя отказаться

Если OpenAI стремится конкурировать с Google Veo 3 в области генерации видео на базе ИИ, Sora 2 должна обрабатывать как видео, так и аудио изначально и без проблем. Любая модель, не поддерживающая генерацию аудио, изначально имеет явную слабость.

В настоящее время Sora создаёт только беззвучные видео, что является серьёзным недостатком, особенно учитывая, что Veo 3 может похвастаться возможностью генерировать звуковые эффекты, окружающий шум и даже диалоги как одним из основных компонентов своей функциональности. Речь идёт не просто о добавлении звука в качестве дополнения, а о настоящей интеграции видео и звука.

Veo 3 может синхронизировать речь персонажей видео на нескольких языках. Sora 2 требует той же встроенной функции генерации звука, от фоновых звуковых ландшафтов до разговорных диалогов. Эта возможность крайне важна для создания реалистичного и увлекательного видеоконтента.

Если OpenAI сможет обеспечить полноценную генерацию мультимедийного контента (видео + аудио) с сохранением длительности видео 20 секунд и более, он не только догонит Veo 3, но и может полностью превзойти его на рынке ИИ-видеогенерации. Это превосходство сделает его лидером в этой передовой технологической области.

2. Радикально улучшить моделирование физики

Визуальная реальность выходит за рамки простой точности; она опирается прежде всего на физические законы. В современных работах Sora часто встречаются неестественные движения или искаженная физика: вода не подчиняется гравитации, объекты смещаются непредсказуемо или движение кажется в корне неправильным. Отсутствие физического реализма снижает качество видео и делает его неестественным.

Google явно отдала приоритет реалистичной физике реального мира в Veo 3, и результаты говорят сами за себя. Их видеоролики превосходно имитируют реалистичную физику и динамичное движение с минимальными ошибками. В то же время старая модель Sora демонстрирует прерывистое движение и нестабильные взаимодействия объектов, что портит погружение в игру. Например, в Sora можно увидеть объекты, движущиеся чрезвычайно быстро или ведущие себя физически невозможным образом.

Чтобы Sora 2 была конкурентоспособной, её модель должна лучше понимать поведение в реальном мире — от естественной человеческой походки до прыгающих мячей, от динамики дыма до механики жидкости. OpenAI, по сути, необходимо интегрировать физический движок в Sora. Реалистичные движения и взаимодействия (без искаженных конечностей и плавящегося фона) позволят сократить критически важное отставание от конкурентов. Это требует значительного улучшения понимания и применения моделью базовых физических законов.

3. Разговорное руководство должно быть нормой.

В чём секрет OpenAI? ChatGPT уже обучил миллионы людей диалоговому общению с ИИ. Sora 2 должна использовать это преимущество, сделав создание видео похожим на общение, а не просто на программирование.

Вместо того, чтобы требовать идеальных указаний или сложной навигации по интерфейсу, система должна поддерживать естественную оптимизацию. Google уже движется в этом направлении: её инструмент Flow использует искусственный интеллект Gemini для обеспечения интуитивной навигации на повседневном языке.

Runway блестяще справляется с этой задачей благодаря своему режиму чата, а теперь и новому инструменту Aleph, позволяющему Gen-4 мастерски улучшить любой элемент. Dream Machine от Luma была разработана с нуля именно с учётом этой концепции.

Представьте себе такой рабочий процесс: введите «средневековый рыцарь на горе», получите черновик видео, а затем просто скажите: «Сделайте восход солнца и добавьте дракона», — и Сора мгновенно обновит сцену. Такой диалоговый подход снизит барьеры для новичков и ускорит рабочий процесс для профессионалов.

Технология существует. ChatGPT уже интерпретирует последующие запросы и динамически корректирует вывод (что продемонстрировано на примере встроенной интеграции изображений в GPT-4os). Sora 2, полностью интегрированная с ChatGPT, должна позволить нам создавать потрясающие видео. Этот пользовательский интерфейс превзойдёт техническое руководство, которое всё ещё требуется большинству конкурентов.

Это также позволит вам сначала создавать оригинальные изображения, а затем создавать анимацию с помощью Sora, подобно тому, как Google работает с Veo 3 в Gemini или новой функцией Grok Imagine. Эта интеграция значительно расширит ваши возможности по созданию визуального контента.

4. Важность последовательности и кастомизации персонажей в следующем поколении Соры

Последовательность персонажей и сцен — ещё одно важное улучшение, на которое следует обратить внимание при разработке моделей ИИ для генерации видео. В настоящее время создание двух фрагментов с фразой «девушка в красном платье» может привести к появлению двух совершенно разных персонажей. Работа Соры часто различается по стилю и детализации между разными версиями, что делает практически невозможным создание связных многосценных историй или повторяющихся персонажей.

Sora 2 должна позволить создавать единообразных персонажей, объекты и художественные стили для длинных видеоклипов или сериалов. Конкуренты уже предлагают эту функцию, например, Kling 2.1 может похвастаться «единообразными персонажами и кинематографическим освещением непосредственно из текстовых подсказок». Google Flow идёт ещё дальше, позволяя использовать пользовательские ресурсы (портреты, определённые художественные стили) в качестве «компонентов» в нескольких сценах.

OpenAI должен предоставлять аналогичные возможности: загрузку референсных изображений, тонкую настройку стиля и обеспечение преемственности персонажей в разных сценах. Если Sora 2 сможет поддерживать единообразный облик персонажей на протяжении всего видео, создатели смогут по-настоящему рассказывать истории, а не создавать отдельные клипы. Особенно если в нём есть встроенная интеграция звука для клипов длительностью более 20 секунд.

Последовательность и индивидуализация работают вместе — будь то художник, придерживающийся уникального стиля, или режиссёр, которому нужна преемственность персонажей, Sora 2 должна предоставлять этот контроль. Это гарантирует более точную реализацию видения пользователя и открывает двери к более широким творческим возможностям в области генеративного ИИ.

5. Глубокая интеграция с ChatGPT и глобальная доступность

OpenAI должна укрепить свои позиции на рынке, полностью интегрировав Sora 2 в ChatGPT и обеспечив при этом его широкую доступность. В то время как Veo от Google подключается к более широкому набору инструментов (включая интеграцию с Gemini, доступ к API и приложение Flow), Meta обязана интегрировать видео с использованием ИИ во все свои продукты.

OpenAI может выделиться, сделав Sora 2 неотъемлемой частью ChatGPT. Такая мгновенная интеграция предоставит миллионам пользователей ChatGPT видеостудию на базе искусственного интеллекта без необходимости менять приложения. Они могли бы последовать примеру Google, установив низкий лимит на количество создаваемых в день видео, но при этом предлагая премиум-подписку с неограниченным доступом, как это сейчас происходит с ChatGPT Pro и Sora.

Оптимизация мобильного опыта критически важна. Современные авторы снимают, монтируют и публикуют контент исключительно со своих телефонов. Если Sora 2 будет работать в мобильном приложении ChatGPT (или в отдельном приложении Sora) с возможностью быстрого создания контента, он может захватить рынок авторов в TikTok и Reels. Представьте, что вы говорите своему телефону: «ChatGPT, сними 15-секундное видео, где я в роли мультяшного астронавта приземляюсь на Марсе», — и получаете мгновенно готовый контент.

Обеспечивая повсеместное распространение Sora 2 — через ChatGPT, API-интерфейсы разработчиков и мобильные платформы — OpenAI может быстро расширить свою пользовательскую базу, одновременно собирая важные отзывы об улучшениях.

Такие платформы, как Leonardo, Freepik и Higgsfield, уже широко используют Google Veo 3 и Hailuo MiniMax 2 благодаря их впечатляющим возможностям, скорости и доступности через API. OpenAI отстаёт в области креативного ИИ из-за отсутствия обновлений для Sora.

Заключение

У OpenAI есть реальная возможность вернуть себе лидерство в области генеративного ИИ, переняв опыт конкурентов. В настоящее время модель Veo 3 от Google является золотым стандартом благодаря своим выдающимся возможностям генерации аутентичного голоса, симуляции реалистичной физики и точной реакции на текстовые команды. Тем временем, новые модели, такие как Kling 2.1 и MiniMax 2, продолжают расширять границы возможностей в этой области.

Runway уверенно развивается, внедряя новые усовершенствования в свою модель Gen-4, которая обеспечивает качество моделирования физики, аналогичное Sora, но обладает дополнительными функциями. Тем временем другие компании, такие как Pika, концентрируются на удовлетворении потребностей разработчиков, усиливая давление на OpenAI и сокращая свою долю на этом ценном рынке.

Sora 2 не может быть просто постепенным улучшением; она должна поразить всех своими невероятными возможностями.

Хорошая новость заключается в том, что у OpenAI уже есть все необходимое для успеха: мощная языковая модель, видеомодель первого поколения для дальнейшего развития и огромная база пользователей благодаря ChatGPT. Если OpenAI сможет обеспечить нативную генерацию голоса, реалистичную симуляцию физики, простоту общения, согласованное расположение персонажей в сценах и бесшовную интеграцию с другими продуктами, Sora 2, несомненно, превзойдет Veo 3, Kling и всех остальных конкурентов в этой области.

Если объединить все эти функции, не удивляйтесь, если следующее видео, которое станет вирусным в социальных сетях, будет создано с помощью Sora 2.

ChatGPT Сора