Qwen

Лучшие модели Qwen — Обзор моделей

Разбор шести актуальных моделей от Alibaba Cloud — от компактного Qwen3-32B до флагмана Qwen3.5-Plus с 1M токенами контекста и нативной мультимодальностью

Обновлено: 1 мая 2026 г.·6 моделей

Qwen — серия AI-моделей от Alibaba Cloud, которая с 2023 года планомерно сокращает разрыв с западными лабораториями. Особенность Qwen — открытые веса под лицензией Apache 2.0: большинство моделей можно запустить локально, а самые крупные доступны через API. В 2025 году вышел Qwen3 — поколение с гибридным мышлением и поддержкой 119 языков, а в феврале 2026 года — Qwen3.5 с нативной мультимодальностью и контекстом до 1M токенов.

Благодаря архитектуре Mixture-of-Experts (MoE) новые модели Qwen активируют лишь малую долю параметров на каждый токен, что даёт высокую скорость вывода при большом общем числе параметров. Qwen3.5-Plus с 397B общих параметров активирует только 17B на запрос — это обеспечивает производительность уровня frontier при разумной стоимости.

Лучшие модели Qwen

Qwen3.5-Plus

Флагман

Февраль 2026Контекст: 1 000 000 токеновВывод: 66 000 токенов

Флагманская hosted-модель Qwen нового поколения с архитектурой MoE 397B/17B и уникальным контекстным окном в 1 миллион токенов. Qwen3.5-Plus работает в трёх режимах: Auto (адаптивное мышление + веб-поиск + интерпретатор кода), Thinking (глубокое рассуждение) и Fast (мгновенные ответы). Нативно обрабатывает текст, изображения (до 1344×1344) и видеоклипы до 60 секунд, поддерживает 201 язык.

Ключевые преимущества

Контекст 1M токенов — весь проект или документ в одном запросе
MoE 397B/17B: производительность frontier при разумной стоимости
Три режима работы: Auto, Thinking, Fast — в одной модели
Нативная мультимодальность: текст + изображения + видео
19× быстрее на длинных контекстах (DeltaNet архитектура)
201 язык и диалект, 250K словарный запас

Подходит для

Анализ целых кодовых баз или крупных документов
Мультимодальные приложения с обработкой изображений и видео
Агентные системы с доступом к веб-поиску и code execution
Перевод и локализация на редкие языки

Ввод: $0.40–0.50 / 1M токенов·Вывод: $2.40–3.00 / 1M токенов

Подробнее о модели

Qwen3.5-122B-A10B

Серверный

Февраль 2026Контекст: 128 000 токеновВывод: 32 000 токенов

Мощная MoE-модель для серверного развёртывания с 122B общих параметров и 10B активных. Занимает нишу между компактными и хостинговыми моделями: предоставляет высокое качество при меньших требованиях к видеопамяти по сравнению с 235B-моделями. Поддерживает новую DeltaNet-архитектуру и гибридное мышление от Qwen3.5.

Ключевые преимущества

122B/10B активных — сильный интеллект при разумных ресурсах
DeltaNet-архитектура: быстрое декодирование на длинных контекстах
Поддержка 201 языка из коробки
Возможность локального развёртывания на серверном железе
Hybrid thinking mode: thinking + non-thinking в одной модели

Подходит для

Self-hosted развёртывание при необходимости контроля данных
Корпоративные on-premise решения с мощным сервером
Задачи, требующие компромисса между качеством и стоимостью инфраструктуры

Ввод: $0.30 / 1M токенов·Вывод: $1.50 / 1M токенов

Подробнее о модели

Qwen3.5-35B-A3B

Работает на ПК

Февраль 2026Контекст: 128 000 токеновВывод: 32 000 токенов

Главный технологический прорыв в линейке Qwen3.5: компактная MoE-модель с 35B общих параметров и всего 3B активных на токен, которая превосходит 235B-модели предыдущего поколения. Qwen3.5-35B-A3B запускается на потребительском железе с 24 ГБ видеопамяти, делая высококачественный локальный ИИ доступным для широкой аудитории.

Ключевые преимущества

Превосходит Qwen3-235B при 35B параметрах вместо 235B
Запускается на 24 ГБ VRAM — RTX 3090/4090 и A100
В 8.6× быстрее вывод по сравнению с предыдущим поколением
Открытые веса Apache 2.0 — без лицензионных ограничений
Идеально подходит для llama.cpp, vLLM, Ollama

Подходит для

Локальный запуск на мощном игровом или рабочем ПК
Разработчики, тестирующие модели без облачных расходов
Privacy-чувствительные задачи без передачи данных
Стартапы с ограниченным бюджетом на AI-инфраструктуру

Ввод: $0.10 / 1M токенов·Вывод: $0.40 / 1M токенов

Подробнее о модели

Qwen3-235B-A22B

Топ предыдущего поколения

Апрель 2025Контекст: 128 000 токеновВывод: 32 000 токенов

Флагман первого поколения Qwen3 с 235B общих параметров и 22B активных. На момент выхода в апреле 2025 года Qwen3-235B-A22B стал первой открытой моделью, сопоставимой с GPT-4o и Claude Opus 3 по большинству бенчмарков. Поддерживает гибридное мышление: переключение между thinking mode и non-thinking mode в рамках одного запроса, а также 119 языков.

Ключевые преимущества

Лидирует на 7 из 8 ключевых бенчмарков Qwen3-линейки
Гибридное мышление: thinking + non-thinking в одном промпте
119 языков и диалектов — широчайшее покрытие
Открытые веса Apache 2.0 с Hugging Face
Сопоставим с GPT-4o при доступной цене

Подходит для

Высококачественные переводы на редкие языки
Задачи, где нужен баланс мышления и прямых ответов
Исследование и прототипирование AI-систем
Self-hosted производственные системы на A100-кластерах

Ввод: $0.14 / 1M токенов·Вывод: $0.60 / 1M токенов

Подробнее о модели

Qwen3-32B

Апрель 2025Контекст: 128 000 токеновВывод: 32 000 токенов

Лучшая плотная модель в семействе Qwen3 с 32.8B параметров. Qwen3-32B демонстрирует уникальное соотношение качества и размера: по большинству задач она сравнима с Qwen3-235B, которая в 7 раз крупнее. Особенно сильна в математике (AIME 2025) и программировании (LiveCodeBench), поддерживает агентные сценарии с tool calling.

Ключевые преимущества

Производительность уровня 235B при 32B параметрах на плотной архитектуре
Сильная математика и программирование на AIME и LiveCodeBench
Запускается на 2× A100 80GB — эффективное server-развёртывание
Отличная поддержка tool calling и function calling
Открытые веса Apache 2.0

Подходит для

Сервера с 2× A100 — оптимальное соотношение качества и ресурсов
Математические вычисления и алгоритмические задачи
Агентные системы с вызовом инструментов
Команды, предпочитающие плотные модели MoE

Ввод: $0.30 / 1M токенов·Вывод: $1.20 / 1M токенов

Подробнее о модели

Qwen3-30B-A3B

Апрель 2025Контекст: 128 000 токеновВывод: 32 000 токенов

Эффективная MoE-модель из первого поколения Qwen3, которая активирует лишь 3B параметров из 30B. Обеспечивает значительно более высокую скорость вывода, чем плотные аналоги сопоставимого качества. Для локального запуска требует 24 ГБ видеопамяти, хорошо работает на RTX 3090/4090 через llama.cpp.

Ключевые преимущества

Высокая скорость вывода — только 3B активных параметров
Качество уровня Qwen3-32B при меньших ресурсах
Поддержка thinking и non-thinking режимов
Запускается на RTX 3090/4090 через llama.cpp
Открытые веса Apache 2.0

Подходит для

Высоконагруженные production-сервисы с ограниченным GPU
Задачи, где скорость ответа критичнее максимального качества
Chatbot-инфраструктура с многопользовательским доступом

Ввод: $0.10 / 1M токенов·Вывод: $0.40 / 1M токенов

Подробнее о модели

Линейка Qwen в 2025–2026 году предлагает одни из самых конкурентных решений на рынке: от Qwen3-30B-A3B, работающего на потребительском железе, до Qwen3.5-Plus с 1M токенами контекста и нативной мультимодальностью. Ключевое преимущество — открытые веса Apache 2.0 для большинства моделей, что позволяет развернуть AI на своей инфраструктуре без лицензионных ограничений. Через AITUNNEL все модели Qwen доступны через API без VPN с оплатой в рублях.

Часто задаваемые вопросы о Qwen

Какая модель Qwen лучшая в 2025–2026 году?

Для API-доступа: Qwen3.5-Plus — флагман с 1M контекстом, мультимодальностью и режимом Auto (поиск + code execution). Для качества при самостоятельном развёртывании: Qwen3-235B-A22B или Qwen3.5-122B-A10B. Для запуска на обычном ПК: Qwen3.5-35B-A3B или Qwen3-30B-A3B (24 ГБ VRAM).

Можно ли запустить Qwen локально бесплатно?

Да. Большинство моделей Qwen3 и Qwen3.5 доступны на Hugging Face под лицензией Apache 2.0. Qwen3.5-35B-A3B и Qwen3-30B-A3B запускаются на RTX 3090/4090 через llama.cpp, Ollama или vLLM. Для крупных моделей (235B+) нужен кластер A100. Для API-доступа без инфраструктуры — AITUNNEL с оплатой в рублях.

Как подключить Qwen API в России без VPN?

Через AITUNNEL: зарегистрируйтесь, пополните баланс (от 300 ₽), получите API-ключ и установите base_url = "https://api.aitunnel.ru/v1/". API совместим с OpenAI SDK — переменная окружения меняется одной строкой.

Что такое гибридное мышление в Qwen3?

Hybrid thinking — уникальная возможность переключаться между thinking mode (детальное пошаговое рассуждение, как у o1/DeepSeek-R1) и non-thinking mode (быстрые прямые ответы) в рамках одного запроса. Это позволяет экономить токены на простых задачах и включать глубокое рассуждение только когда необходимо.

Поддерживает ли Qwen русский язык?

Да. Qwen3 поддерживает 119 языков, Qwen3.5 — 201 язык и диалект. Русский язык в числе основных, поскольку Alibaba активно работает с рынками СНГ. Качество работы с кириллицей, технической документацией и переводами на уровне лучших западных моделей.

Доступ к этому провайдеру через AITUNNEL

Все модели провайдера доступны через единый API. Работает из России без VPN, оплата в рублях.

Единый APIОплата картой РФБез VPN

Начать работуРегистрация за 1 минуту