DeepSeek готовится к следующей революции искусственного интеллекта с помощью самосовершенствующихся моделей.

Всего несколько месяцев назад ставка Уолл-стрит на генеративный ИИ пережила решающий момент, когда он появился DeepSeek На сцене. Несмотря на свою строго контролируемую природу, DeepSeek с открытым исходным кодом доказал, что новаторская модель логического вывода ИИ не обязательно требует миллиардов долларов и может быть создана с помощью скромных ресурсов. Это представляет собой существенный сдвиг в нашем понимании разработки современных моделей ИИ.

Его быстро внедрили в коммерческую эксплуатацию такие гиганты, как Huawei, Oppo и Vivo, а такие компании, как Microsoft, Alibaba и Tencent, быстро разместили его на своих платформах. Теперь следующей целью популярной китайской компании являются самосовершенствующиеся модели искусственного интеллекта, использующие циклический подход «судья-вознаграждение» для самосовершенствования. Эта тенденция отражает постоянное стремление компаний разрабатывать более эффективные и действенные системы ИИ.

В предварительно отпечатанном документе (через BloombergИсследователи из DeepSeek и китайского Университета Цинхуа описывают новый подход, который может сделать модели ИИ более умными и эффективными за счет самосовершенствования. Лежащая в основе методика известна как «самостоятельный критический контроль» (SPCT), а этот подход технически известен как «моделирование генеративного вознаграждения» (GRM). Этот подход представляет собой значительное достижение в области обучения с подкреплением для искусственного интеллекта.

Проще говоря, это немного похоже на создание цикла обратной связи в реальном времени. Модель ИИ в первую очередь улучшается за счет увеличения размера модели в процессе обучения. Это требует больших затрат человеческого труда и вычислительных ресурсов. DeepSeek предлагает систему, в которой главный «арбитр» выдвигает свой собственный набор критических замечаний и принципов для модели ИИ, готовя ответ на запросы пользователей. Такой подход направлен на снижение зависимости от интенсивного использования человеческих ресурсов в процессе обучения.

Затем этот набор критических замечаний и принципов сравнивается с установленными правилами, лежащими в основе модели ИИ, и желаемым результатом. При высокой степени соответствия генерируется сигнал вознаграждения, который фактически направляет ИИ на более высокую производительность в следующем раунде. Этот непрерывный процесс оценки и вознаграждения повышает способность модели к обучению и адаптации.

Эксперты, стоящие за этим, отмечают, что Научная работа К следующему поколению самосовершенствующихся моделей ИИ под названием DeepSeek-GRM. Тесты, включенные в документ, показывают, что эти модели работают лучше, чем Google Gemini, Meta Llama и OpenAI GPT-4o. DeepSeek утверждает, что модели ИИ следующего поколения будут выпущены с открытым исходным кодом. Такая приверженность открытости может ускорить темпы инноваций в области ИИ.

Самосовершенствующийся ИИ: возможно ли это?

Идея искусственного интеллекта, способного к самосовершенствованию, вызвала амбициозные и противоречивые дискуссии. Бывший генеральный директор Google Эрик Шмидт заявил, что для таких систем может понадобиться «выключатель». И это было передано Fortune Шмидт сказал: «Когда система может улучшить себя, нам следует серьезно задуматься о ее отключении». Самосовершенствующиеся системы ИИ являются одними из важнейших разработок в области ИИ.

Концепция итеративного самосовершенствования ИИ не совсем нова. Идея сверхразумной машины, способной создавать более совершенные машины, Возвращение На самом деле математику И. Дж. Гуду в 1965 году. В 2007 году эксперт по искусственному интеллекту Элиезер Юдковски выдвинул гипотезу о Семя ИИ, искусственный интеллект, «создан для самопонимания, самоизменения и итеративного самосовершенствования».

В 2024 году японская компания Sakana AI представила подробности Концепция «AI World» — это система, способная управлять всей производственной линией научных работ от начала до конца. И в лист В исследовательской статье, опубликованной в марте этого года, эксперты Meta представили модели самовознаграждающегося языка, в которых сам ИИ выступает в качестве судьи, присуждая вознаграждения в ходе обучения. Этот шаг к самообучающимся системам ИИ представляет собой смену парадигмы в развитии искусственного интеллекта.

Генеральный директор Microsoft Сатья Наделла заявил, что разработка ИИ оптимизируется моделью OpenAI o1 и вступила в рекурсивную фазу: «Мы используем ИИ для создания инструментов ИИ, чтобы создать более совершенный ИИ» pic.twitter.com/IHuFIpQl2C

— Царатустра (@tsarnick) 21 октября 2024

Внутренние испытания Meta модели искусственного интеллекта Llama 2, использующей инновационную технологию самовознаграждения, показали, что она превосходит конкурентов, таких как модели Claude 2 от Anthropic, Gemini Pro от Google и GPT-4 от OpenAI. Anthropic, поддерживаемый Amazon Предоставленные данные То, что она назвала манипуляцией вознаграждением, — непредсказуемый процесс, «в котором модель напрямую изменяет свой собственный механизм вознаграждения».

Google не сильно отстает в этом вопросе. В исследовании, опубликованном в журнале Природа Ранее в этом месяце эксперты Google DeepMind продемонстрировали алгоритм искусственного интеллекта под названием Dreamer, способный к самосовершенствованию, используя Minecraft в качестве примера упражнений.

Работает Эксперты IBM Их собственный подход называется обучением на основе выводного замыкания, при котором модель ИИ использует собственные ответы и сравнивает их с данными обучения, чтобы улучшить себя. Однако не вся гипотеза положительна.

Исследования показывают, что когда модели ИИ пытаются обучаться на самостоятельно сгенерированных синтетических данных, они сталкиваются с ошибками, которые в просторечии называются «сбоями модели». Будет интересно посмотреть, как DeepSeek реализует эту идею и сможет ли она сделать это более экономично, чем ее западные конкуренты.

DeepSeek