Китайская Alibaba превзошла Meta с новыми моделями Qwen 3 AI

Краткое содержание:

Китайский технологический гигант Alibaba запустил семейство моделей искусственного интеллекта Qwen 3 с открытым исходным кодом. Коллекция включает 8 новых моделей.
Ведущая модель Qwen3-235B-A22B MoE была обучена на 235 миллиардах параметров, из которых 22 миллиарда были активированы.
Меньшая модель Qwen3-30B-A3B MoE, имеющая всего 3 миллиарда активированных параметров, значительно превосходит GPT-4o.

Китайский технологический гигант Alibaba выпустил восемь новых моделей искусственного интеллекта (ИИ) с открытым исходным кодом в своей серии Qwen 3. Новые модели Qwen 3 включают две модели MoE (Mixture of Experts): Qwen3-235B-A22B и Qwen3-30B-A3B. Qwen3-235B-A22B — самая большая и ведущая модель с общим числом параметров 235 миллиардов и 22 миллиардами активированных параметров.

Qwen3-30B-A3B — это меньшая модель MoE с общим количеством параметров 30 миллиардов и 3 миллиардами активированных параметров. Кроме того, в серию Qwen 3 входят шесть моделей повышенной плотности, включая Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B и Qwen3-0.6B. Новые модели Alibaba Qwen 3 AI еще больше укрепляют позиции компании в области искусственного интеллекта.

Представляем Qwen3!

Мы выпускаем и открываем Qwen3, наши новейшие большие языковые модели, включая 2 модели MoE и 6 плотных моделей в диапазоне от 0.6 до 235 Б. Наша флагманская модель Qwen3-235B-A22B демонстрирует конкурентоспособные результаты в тестовых оценках кодирования, математики, общих… pic.twitter.com/JWZkJeHWhC

— Квен (@Alibaba_Qwen) 28 апреля 2025

Все модели Qwen 3 поддерживают гибридные режимы мышления, то есть они одновременно являются как моделями логического ИИ, так и традиционными большими языковыми моделями (LLM). В «режиме мышления» модель может делать пошаговые выводы, а в «режиме немышления» модель дает быстрый ответ. Эта функция повышает гибкость использования модели в различных приложениях.

в дополнение к, Служба поддержки Модели Qwen 3 поддерживают более 119 языков и диалектов со всего мира. Это одна из самых универсальных многоязычных моделей. Кроме того, Alibaba улучшила поддержку протокола контекста модели (MCP) для моделей Qwen 3, открывая дополнительные возможности для агентов. Это улучшение позволяет моделям лучше понимать контекст и принимать более взвешенные решения.

С точки зрения производительности более крупная модель Qwen3-235B-A22B демонстрирует конкурентоспособные результаты на уровне DeepSeek R1 и Grok 3 Beta и Близнецы 2.5 Про и OpenAI o1. Мне кажется интересным то, что меньшая модель Qwen3-30B-A3B, имеющая всего 3 миллиарда активных параметров, превосходит DeepSeek V3 и модель GPT-4o от OpenAI. Это свидетельствует о высокой эффективности использования ресурсов и возможности достижения выдающихся показателей при меньших размерах модели.

По данным Alibaba, модели Qwen 3 хорошо справляются с программированием, математикой, естественными науками и общими навыками. В целом Qwen 3 представляет собой семейство передовых и высокопроизводительных моделей искусственного интеллекта из Китая. Теперь, с появлением DeepSeek R2, Китай имеет все возможности конкурировать с западными лабораториями искусственного интеллекта. Это развитие отражает быстрый прогресс Китая в области искусственного интеллекта.