K

GLM-5.1 — модель, которая не теряет продуктивность

Обзор нового флагмана GLM-5.1 от Z.ai для агентского кодинга — тесты использования, полная таблица бенчмарков и то, где модель действительно берёт своё

GLM-5 мы разбирали в прошлом году, тогда это была крепкая рабочая модель для агентских задач. Но с тех пор пространство флагманов сильно изменилось, и вот новая — GLM-5.1. Z.ai называет его «следующим поколением для агентного программирования», и на этот раз за этим стоят конкретные числа.

Главное, что отличает GLM-5.1 от предшественника — не скорость и не размер контекста, а то, что модель умеет оставаться продуктивной на длинных дистанциях. Там, где другие модели сбавляли темп и начинали ходить по кругу, GLM-5.1 продолжает работать. Разбивает задачу на части, запускает эксперименты, читает результаты, меняет стратегию. И чем дольше — тем лучше итог.

Почему предыдущие модели зависали на длинных задачах

Большинство моделей работают по одной схеме — дай им больше времени, станет лучше, но только до какого-то предела. Дальше они просто повторяют одни и те же действия, не находя ничего нового.

GLM-5.1 ведёт себя по-другому. Вместо того чтобы застрять на одном подходе, модель разбирает задачу на части, пробует разные варианты, смотрит что получилось и меняет план. И так до тех пор, пока есть куда двигаться.

Чтобы не быть голословными, проверили это на трёх разных задачах. Первая — с понятной числовой оценкой, вторая — уже сложнее, а третья вообще без метрики: качество результата модель оценивала сама. Специально подобрали разные форматы, чтобы посмотреть, где именно преимущество теряется.

Тест №1. Оптимизация векторной базы данных

VectorDBBench — open-source задача, где нужно построить быструю базу данных для поиска по похожим векторам. Модель получает Rust-код с заготовками и 50 ходов, чтобы компилировать, тестировать и профилировать. Итоговая оценка — сколько запросов в секунду (QPS) база обработает на датасете SIFT-1M при точности не ниже 95%. До GLM-5.1 в рамках этого лимита лучший результат был 3 547 QPS — его поставил Claude Opus 4.6.

Мы решили убрать ограничение в 50 ходов и запустить модель в петлю: каждый раз GLM-5.1 делает сколько угодно вызовов инструментов, а потом сам решает — засабмитить текущую версию или продолжать работать. После 600 итераций и больше 6 000 tool-вызовов результат вырос до 21 500 QPS. Это примерно в 6 раз больше, чем лучший результат в стандартном 50-ходовом режиме.

Но интереснее не сама цифра, а то, как модель к ней шла. График роста QPS выглядит как лесенка — долгие периоды, когда модель доводит одну и ту же идею, а потом резкий скачок, когда она меняет подход целиком. Примерно на 90-й итерации она перешла с полного перебора на IVF-кластеризацию и сжатие векторов до f16 — QPS подскочил до 6 400. На 240-й добавила двухэтапный пайплайн с грубым отбором через u8 и точным реранкингом — уже 13 400 QPS. Таких больших переходов за весь прогон было шесть, и каждый раз модель принимала решение сама, анализируя собственные логи.

График оптимизации VectorDB: 600 итераций, рост QPS от ~3.5K до 21.5K
Рисунок 1. Траектория оптимизации VectorDBBench: рост QPS по итерациям с ключевыми переключениями стратегии.

Тест №2. Оптимизация GPU-ядер за 1 000+ ходов

KernelBench Level 3 — задача на переписывание PyTorch-кода в более быстрое GPU-ядро, которое даёт те же результаты. Третий уровень — самый сложный: нужно оптимизировать целые архитектуры вроде MobileNet, VGG, MiniGPT и Mamba, всего 50 задач. Чтобы было с чем сравнивать: стандартный torch.compile даёт ускорение в 1.15×, с агрессивными настройками — 1.49×.

Здесь GLM-5.1 уже не первый. Claude Opus 4.6 добрался до 4.2× и к концу трека всё ещё продолжал расти. GLM-5.1 показал 3.6× — заметно лучше, чем GLM-5, который останавливался гораздо раньше. Claude Opus 4.5 тоже раньше терял темп по сравнению с GLM-5.1. Но разрыв с Opus 4.6 — около 0.6× — это не погрешность, это реальное отставание.

KernelBench Level 3: траектории ускорения для разных моделей по ходам
Рисунок 2. KernelBench Level 3: среднее ускорение по числу tool-use ходов, сравнение GLM-5.1 с Opus и предыдущей версией GLM.

Тест №3. Linux-десктоп в браузере за 8 часов

Этот тест принципиально другой — никакой числовой оценки нет вообще. Задача звучит просто: сделай Linux-подобный рабочий стол как веб-приложение. Без готового кода, без макетов, без подсказок по ходу. Один промпт — и погнали.

Большинство моделей в такой ситуации делают одно и то же — рисуют тулбар, добавляют пару заглушек-окон и на этом останавливаются. Формально задача выполнена. Спросить себя «а что тут ещё можно доделать» они не умеют.

GLM-5.1 завернули в петлю: после каждого раунда модель смотрит на то, что уже есть, сама решает, чего не хватает — недоделанные фичи, некрасивый вид, что-то сломанное — и идёт дальше. Этот цикл крутился 8 часов.

Разница видна невооружённым глазом. В начале — тот же стандартный тулбар и простое окно. Но потом постепенно появляется всё больше: файловый менеджер, терминал, текстовый редактор, системный монитор, калькулятор, игры. Причём каждая новая штука не просто добавляется как попало — она встраивается в общий интерфейс. Через 8 часов получилась полноценная среда рабочего стола, которая работает прямо в браузере.

GLM-5.1 среди флагманов — полная таблица бенчмарков

Ниже — сводная таблица по всем основным бенчмаркам. Синим выделены результаты GLM-5.1, жирным — лучший результат в каждой строке.

БенчмаркGLM-5.1GLM-5Qwen3.6+DeepSeek V3.2Kimi K2.5Claude Opus 4.6Gemini 3.1 ProGPT-5.4
Рассуждение
HLE31.030.528.825.131.536.745.039.8
AIME 202695.395.495.195.194.595.698.298.7
HMMT Nov. 202594.096.994.690.291.196.394.895.8
HMMT Feb. 202682.682.887.879.981.384.387.391.8
IMOAnswerBench83.882.583.878.381.875.381.091.4
GPQA-Diamond86.286.090.482.487.691.394.392.0
Кодирование
SWE-Bench Pro58.455.156.653.857.354.257.7
NL2Repo42.735.937.932.049.833.441.3
Terminal-Bench 2.063.556.261.639.350.865.468.5
CyberGym68.748.317.341.366.638.866.3
Агентные задачи
BrowseComp68.062.051.460.6
τ³-Bench70.669.270.769.266.072.467.172.9
MCP-Atlas71.869.274.162.263.873.869.267.2
Tool-Decathlon40.738.039.835.227.847.248.854.6
Таблица 1. Сводные результаты бенчмарков из релиза GLM-5.1. Синим выделены значения GLM-5.1, жирным — лучший результат в строке.

На кодировании — SWE-Bench Pro, CyberGym и BrowseComp — GLM-5.1 лидирует или в первой тройке. На рассуждении картина другая: HLE (Humanity's Last Exam) — 31.0, тогда как Gemini 3.1 Pro набирает 45.0, Claude Opus 4.6 — 36.7. На математических задачах (AIME, HMMT) GLM-5.1 держится в группе лидеров, но не первый. Сильная сторона модели — именно агентное кодирование, а не общий интеллект.

Открытые веса, MIT-лицензия и как запустить

Если нужен быстрый доступ к GLM-5.1 без лишних танцев с оплатой и настройками, проще всего подключаться через AITUNNEL. Это легальный посредник с оплатой в рублях и OpenAI-совместимым API — удобно, если вы уже используете привычные SDK и не хотите переделывать интеграцию.

Схема простая. Регистрируетесь на AITUNNEL, пополняете баланс, получаете API-ключ и в своём коде меняете только базовый адрес на https://api.aitunnel.ru/v1/. Дальше выбираете модель "GLM-5.1" — и можно работать как с обычным OpenAI-style endpoint (стриминг, инструменты и остальная механика остаются на месте).

Если же вам важен локальный запуск и контроль инфраструктуры, у GLM-5.1 есть открытые веса под MIT-лицензией. Их можно скачать с HuggingFace или ModelScope и поднять через vLLM или SGLang. Официальные эндпойнты Z.ai тоже остаются в доступе — api.z.ai и BigModel.cn.

Что в итоге

58.4% на SWE-Bench Pro — хороший результат, но не главное. Главное то, что GLM-5.1 не теряет продуктивность на длинных задачах. В агентных сценариях это важно.

VectorDB с 600 итерациями и реальным замером QPS, GPU-ядра с конкретным ускорением, Linux-десктоп вообще без метрики — совершенно разные форматы. И в каждом GLM-5.1 держал курс, не теряя продуктивность к концу.

Слабые места тоже есть. На KernelBench Opus 4.6 пока быстрее. На задачах чистого рассуждения и математике — HLE, HMMT — GLM-5.1 отстаёт от лучших моделей OpenAI и Google. Но если задача про кодирование, генерацию репозиториев или кибербезопасность — это рабочая альтернатива. С открытыми весами и MIT-лицензией, что само по себе уже аргумент.

GLM-5.1

Флагман

Флагманская модель Z.ai для агентного программирования нового поколения. Значительно превосходит GLM-5 в кодировании и работе на длинных горизонтах задач. Достигает SOTA на SWE-Bench Pro (58.4%), лидирует на NL2Repo (42.7%) и Terminal-Bench 2.0. Ключевое отличие — способность сохранять продуктивность на протяжении сотен итераций и тысяч tool-вызовов. Открытые веса, MIT-лицензия.

Ключевые преимущества

  • 58.4% на SWE-Bench Pro — лучший результат среди сравниваемых моделей
  • 42.7% на NL2Repo — первое место по генерации репозиториев
  • 68.7% на CyberGym — впереди Claude Opus 4.6 и GPT-5.4
  • 68.0% на BrowseComp — лучший в группе
  • Открытые веса под MIT-лицензией на HuggingFace и ModelScope
  • Совместим с Claude Code, vLLM и SGLang

Подходит для

  • Длинные агентные сессии с тысячами tool-вызовов
  • Оптимизация алгоритмов через сотни итераций
  • Генерация и рефакторинг репозиториев целиком
  • Кибербезопасность и CTF-задачи
  • On-premise развёртывание с контролем данных
Ввод / 1M269 ₽
Вывод / 1M845 ₽
Подробнее о модели

Итог

GLM-5.1 — убедительный шаг Z.ai в сторону длинных агентных горизонтов. Лучший результат на SWE-Bench Pro (58.4%), уверенное лидерство на CyberGym и BrowseComp, и — что важнее цифр — реальная демонстрация того, что модель не теряет продуктивность на длинных дистанциях. Открытые веса под MIT-лицензией с поддержкой vLLM и SGLang делают её реальным вариантом для on-premise production. Если ваши задачи — агентное кодирование, оптимизация, генерация репозиториев или кибербезопасность — GLM-5.1 заслуживает серьёзного внимания.

Часто задаваемые вопросы

Чем GLM-5.1 лучше GLM-5?

GLM-5.1 существенно сильнее в кодировании (58.4% vs 55.1% на SWE-Bench Pro) и особенно на длинных горизонтах задач. GLM-5 выходил на плато после 50–100 итераций; GLM-5.1 продолжает находить улучшения через сотни итераций. На NL2Repo — 42.7% vs 35.9% у GLM-5.

Можно ли запустить GLM-5.1 локально?

Да. Веса опубликованы на HuggingFace (zai-org/GLM-5.1) и ModelScope (ZhipuAI/GLM-5.1) под MIT-лицензией. Для развёртывания поддерживаются vLLM и SGLang. Инструкции — в официальном GitHub-репозитории Z.ai.

С какими инструментами совместим GLM-5.1?

GLM-5.1 совместим с Claude Code — достаточно указать model: "GLM-5.1" в настройках. Также работает с OpenCode, Kilo Code, Roo Code, Cline, Droid. Через API доступен на api.z.ai и BigModel.cn.

Как GLM-5.1 ведёт себя на бенчмарках по рассуждению?

На математике конкурентоспособен: AIME 2026 — 95.3%, HMMT Nov. 2025 — 94.0%, GPQA-Diamond — 86.2%. На HLE (Humanity's Last Exam) — 31.0, что уступает GPT-5.4 (39.8) и Claude Opus 4.6 (36.7). Сильная сторона GLM-5.1 — кодирование и агентные задачи.

Доступен ли GLM-5.1 без VPN из России?

API доступен через api.z.ai. Для удобной работы без дополнительных настроек можно использовать прокси-сервис AITUNNEL с OpenAI-совместимым endpoint и оплатой в рублях.

Доступ к этому провайдеру через AITUNNEL

Все модели провайдера доступны через единый API. Работает из России без VPN, оплата в рублях.

Единый APIОплата картой РФБез VPN
Начать работуРегистрация за 1 минуту

Статьи по теме

Комментарии

Оставить комментарий

Поделитесь опытом использования этой модели

* Обязательные поля
Будьте первым, кто оставит комментарий к этой модели
ПопробоватьВсе модели