OpenAI отвечает на конкуренцию DeepSeek технологией детального отслеживания мыслей для o3-mini

Компания OpenAI раскрывает подробности о процессе рассуждения своей новейшей модели мышления, o3-mini. Это изменение было объявлено Аккаунт OpenAI на платформе XЭто происходит на фоне растущего давления на лабораторию ИИ со стороны DeepSeek-R1 — конкурирующей модели с открытым исходным кодом, которая полностью отображает свой мыслительный код.

Такие модели, как o3 и R1, проходят длительный процесс «цепочки идей» (CoT), в ходе которого вы создаете дополнительные коды для разбиения проблемы на части, обдумываете и тестируете различные ответы и приходите к окончательному решению. Ранее модели рассуждений OpenAI скрывали свой мыслительный процесс и предоставляли лишь общий обзор этапов рассуждения. Это затрудняло пользователям и разработчикам понимание логистики модели и изменение инструкций и подсказок, чтобы направить ее в правильном направлении.

OpenAI посчитала конвейер идей конкурентным преимуществом и скрыла его, чтобы конкуренты не могли скопировать его для обучения своих моделей. Однако поскольку R1 и другие модели с открытым исходным кодом демонстрируют полный процесс рассуждений, отсутствие прозрачности стало недостатком OpenAI.

Новый o3-mini представляет собой более детализированную версию серии Ideas. Хотя мы по-прежнему не видим первоначальных символов, они дают большую ясность относительно мыслительного процесса.

Почему это важно для приложений?

В наших предыдущих экспериментах с моделями O1 и R1 мы обнаружили, что O1 немного лучше справляется с решением задач анализа данных и рассуждений. Однако основным ограничением было то, что не было возможности узнать, почему модель допускала ошибки, а она часто допускала ошибки, сталкиваясь с некорректными реальными данными, полученными из Интернета. С другой стороны, мыслительный процесс R1 позволил нам устранять неполадки и изменять подсказки для улучшения мышления.

Например, в одном из наших экспериментов обе модели не смогли дать правильный ответ. Но благодаря подробным выводам R1 нам удалось обнаружить, что проблема была не в самой модели, а в этапе поиска, на котором информация собиралась из Интернета. В других экспериментах ход мыслей R1 давал нам подсказки, когда она не могла проанализировать предоставленную нами информацию, в то время как O1 давала нам очень приблизительный обзор того, как она могла бы сформулировать свой ответ.

Мы протестировали новую модель o3-mini в вариации предыдущего эксперимента, который мы провели с o1. Мы предоставили модели текстовый файл, содержащий различные цены акций с января 2024 года по январь 2025 года. Файл был перегружен и неотформатирован, представляя собой смесь простого текста и элементов HTML. Затем мы попросили модель рассчитать стоимость портфеля, в который было инвестировано 140 долларов США в акции «Великолепной семерки» в первый день каждого месяца с января 7 года по январь 2024 года, равномерно распределенных по всем акциям (мы использовали термин «Великолепная семерка» в подсказке, чтобы усложнить задачу).

Серия идей o3-mini на этот раз оказалась действительно полезной. Сначала модель продумала, что такое Mag 7, отфильтровала данные, чтобы оставить только соответствующие акции (чтобы усложнить задачу, мы добавили в данные некоторые акции, не входящие в Mag 7), рассчитала ежемесячную сумму инвестиций в каждую акцию и выполнила окончательные расчеты, чтобы предоставить правильный ответ (стоимость портфеля составит около 2200 долларов США на последний зафиксированный момент времени в данных, которые мы передали в модель).

Потребуется больше тестов, чтобы определить пределы возможностей нового алгоритма, поскольку OpenAI пока держит многие детали в секрете. Но в наших первых тестах новый формат кажется более полезным.

Что это значит для OpenAI?

Когда DeepSeek-R1 был выпущен, у него было три явных преимущества по сравнению с моделями рассуждений OpenAI: он имел открытый исходный код, был недорогим и прозрачным.

С тех пор OpenAI удалось сократить этот разрыв. В то время как o1 стоит 60 долларов за миллион добытых токенов, o3-mini стоит всего 4.40 доллара, превосходя o1 по многим показателям. R1 стоит примерно 7–8 долларов за миллион токенов, выпущенных американскими провайдерами. (DeepSeek предлагает модель R1 по цене 2.19 доллара за миллион токенов, добытых на его собственных серверах, но многие организации не смогут ее использовать, поскольку она размещена в Китае.)

Благодаря новым изменениям в выходных данных CoT компания OpenAI смогла в некоторой степени преодолеть проблему прозрачности.

Пока неизвестно, как OpenAI собирается сделать исходный код своих моделей открытым. С момента своего выпуска R1 уже был адаптирован, расширен и размещен во многих различных лабораториях и компаниях, что делает его потенциально предпочтительной моделью мышления для предприятий. Генеральный директор OpenAI Сэм Альтман недавно признал, что он был «на неправильной стороне истории» в дебатах об открытом исходном коде. Посмотрим, как это осознание проявится в будущих версиях OpenAI.