Стартап в области искусственного интеллекта превзошел Gemini 3 в ключевом тесте на точность вывода.

С момента его появления Близнецы 3 Впервые ему удалось успешно удержать свою позицию на вершине Таблица лидеров LMArenaЭтот список представляет собой коллективный рейтинг, составленный на основе сравнения моделей тысячами реальных пользователей. Искусственный интеллект Они соревнуются друг с другом в решении широкого спектра задач, голосуя за лучший ответ. Но когда дело доходит до достижения самых строгих критериев вывода, появляется новая восходящая звезда, которая уже превзошла Google — и сделала это, не обучая собственную модель.

Стартап Poetiq, состоящий из шести человек, заявил, что занял первое место в рейтинге. Полуспециальный тестовый комплект ARC-AGI-2Это чрезвычайно сложная задача на вывод результатов, разработанная исследователем в области искусственного интеллекта Франсуа Шолле. Система стартапа набрала 54 процента, превзойдя ранее сообщенный Google результат в 45 процентов для Gemini 3 Deep Think.

Для сравнения, всего полгода назад большинство моделей ИИ показывали результаты ниже 5 процентов по этому показателю. Многие исследователи предполагали, что для преодоления отметки в 50 процентов потребуются годы.

И самое удивительное: прорыв Поэтика был подкреплен не новой моделью освоения новых горизонтов, а более продуманным способом организации существующих моделей.

Как Поэтику удалось этого добиться?

Вместо того чтобы создавать с нуля громоздкий преобразователь, компания Poetiq разработала то, что она называет метасистемой; по сути, это контроллер на основе искусственного интеллекта, который контролирует, анализирует и улучшает выходные данные любой подключенной к нему модели. Для работы над ARC-AGI-2 команда использовала Gemini 3 Pro в качестве базовой модели.

Поэтик описывает эту систему как строго контролируемый цикл оптимизации: Создать > Критика > Улучшить > Проверить.

Вот что делает его особенным:

Переподготовка не требуется: Система адаптируется к новым моделям в течение нескольких часов.
Она полностью основана на больших, готовых языковых моделях: Пользовательское редактирование недоступно
цена ниже или дешевле: По имеющимся данным, стоимость решения Deep Think от Google составляет 77 долларов за задачу; система Poetiq стоит около 30 долларов.
Открытый источник: Решение находится в открытом доступе и поддается проверке.
Самоаудит: Система оценивает собственные ответы, прежде чем вернуть окончательный результат.

على الموقع الإلكتروني По словам команды Poetiq, этот подход работает за счет извлечения преимуществ Plus из вычислительной мощности существующих больших языковых моделей, а не за счет грубой силы при масштабировании вычислительных мощностей.

Почему тест ARC-AGI-2 важен?

В то время как большинство стандартизированных тестов измеряют ограниченные навыки, такие как программирование или математика, ARC-AGI-2 был разработан для проверки чего-то более глубокого: распознавания образов, измерения, абстрактного мышления и обобщения, которому люди учатся в раннем детстве.

Он намеренно сложен и крайне недружелюбен к современным большим языковым моделям (LLM). Даже многие сложные модели терпят в нем сокрушительное поражение.

Поэтому скачок от однозначных результатов до 54 процентов за полгода был неожиданным. Это свидетельствует о прогрессе в методах вывода, а не только в размере исходной модели.

Однако результаты Poetiq относятся конкретно к полузакрытой группе тестирования, которая не полностью открыта для публики. На сайте компании указано, что результат был подтвержден организацией, проводящей сравнительный анализ, — но независимое подтверждение третьими сторонами еще не получено, что важно для сравнительного теста такого масштаба.

Следующий прорыв может произойти не благодаря более крупным моделям, поскольку работа Поэтика подчеркивает растущую тенденцию в области искусственного интеллекта: прогресс не всегда требует миллиардов долларов на инфраструктуру или огромной исследовательской лаборатории.

Если таким системам удастся выйти за рамки стандартных параметров и включить в себя планирование, программирование, исследования или даже принятие решений в реальном мире, они могут изменить подход к разработке искусственного интеллекта. Вместо того чтобы ждать появления следующего суперкомпьютера, компании могут сосредоточиться на создании комплексного интеллекта, который сделает современные модели умнее, дешевле и более согласованными.

Заключение

Компания Poetiq выпустила решение с открытым исходным кодом для ARC-AGI, позволяющее исследователям тестировать, расширять или даже оспаривать его результаты. Стандарт содержит скрытый набор тестов, и, как показывает история, результаты могут измениться после проведения значительной частью независимых оценок.

Если результаты Poetiq подтвердятся, это может стать поворотным моментом в исследованиях в области вывода ИИ. Команда из шести человек, возможно, только что показала, что организация моделей может конкурировать, а то и превосходить обучение гораздо более крупных моделей. Poetiq только что доказал, что для победы не нужна огромная лаборатория.

Gemini