Токенайзер для GPT-5, GPT-4o и o1 — посчитать токены онлайн

Бесплатный калькулятор токенов для современных моделей OpenAI. Использует энкодер o200k_base — тот же, что и GPT-5, GPT-4o, GPT-4.1, o1, o3 и o4-mini. Подсчёт происходит в браузере, текст никуда не отправляется.

Загружаем токенайзер o200k_base…

Что такое токены и как они считаются

Токен — это минимальная единица текста, с которой работает языковая модель. Перед тем как нейросеть обрабатывает ваш запрос, он разбивается на токены с помощью специального алгоритма — токенайзера. Один токен может быть целым словом, частью слова, отдельным символом или даже пробелом.

В моделях OpenAI используется алгоритм Byte Pair Encoding (BPE). Он строит словарь из самых частых последовательностей символов в обучающих данных. Чем чаще встречается слово или его часть, тем больше шанс, что оно станет одним токеном.

1 токен ≈ 4 символа

Для английского текста среднее соотношение: 1 токен ≈ 4 символа или ≈ ¾ слова. Сто токенов — это примерно 75 английских слов.

1 токен ≈ 2–3 символа

Русский текст плотнее: одно слово часто разбивается на 2–4 токена. Сто токенов — это примерно 30–40 русских слов.

Контекст модели в токенах

Лимит контекста (например, 128k или 200k) считается в токенах, а не в символах. Промпт + ответ должны поместиться в этот лимит.

Цены тарифицируются в токенах

Все провайдеры (OpenAI, Anthropic, Google) считают стоимость за 1 миллион входных и выходных токенов. AITUNNEL — в рублях.

Энкодер o200k_base — современный токенайзер OpenAI

o200k_base — это новейший токенайзер OpenAI с размером словаря ≈ 200 000 токенов. Он пришёл на смену устаревшему cl100k_base (≈ 100 000 токенов, использовался в GPT-4 и GPT-3.5) и существенно лучше работает с неанглийскими языками, включая русский.

Этот же энкодер используется во всех актуальных моделях OpenAI, поэтому количество токенов, посчитанное нашим калькулятором, будет одинаковым для любой из этих моделей — отличается только цена:

  • GPT-5, GPT-5 Pro, GPT-5 Mini, GPT-5 Nano, GPT-5 Codex
  • GPT-4o, GPT-4o-mini, GPT-4o-audio, ChatGPT-4o
  • GPT-4.1, GPT-4.1 Mini, GPT-4.1 Nano, GPT-4.5
  • o1, o1-pro, o1-mini, o3, o3-mini, o3-pro, o4-mini — reasoning-модели
  • Эмбеддинги: text-embedding-3-small и text-embedding-3-large

Для других моделей (Claude, Gemini, DeepSeek) счёт токенов через o200k_base даёт приближённое значение — обычно в пределах 5–15% от фактического.

Сколько токенов в русском тексте

Русский язык исторически плохо токенизировался в моделях OpenAI — каждая буква могла превращаться в отдельный токен. В новом энкодере o200k_base ситуация значительно улучшилась, но русский текст всё равно требует больше токенов, чем эквивалентный английский.

Приблизительные ориентиры для русского текста на o200k_base:

1 короткое слово

«Привет», «Спасибо» — обычно 1–2 токена. Простые слова могут быть в словаре целиком.

1 длинное слово

«Программирование», «Искусственный» — 3–6 токенов. Делится на корень и приставки/окончания.

1 предложение (50 симв.)

Среднее предложение на 50 символов — 20–30 токенов. «Сегодня прекрасный день для нейросетей.» ≈ 12 токенов.

1 абзац (500 симв.)

Текстовый абзац в 500 символов — обычно 200–280 токенов. Зависит от лексики и наличия терминов.

Совет: если вам важна экономия, используйте более простые слова и избегайте редких терминов. Также можно писать на английском — это часто сокращает расход токенов в 1.5–2 раза.

Как считать стоимость запроса

Стоимость одного запроса к языковой модели складывается из двух частей — токенов входа (промпт) и токенов выхода (ответ). Цены указываются за 1 миллион токенов.

Формула расчёта:

стоимость = (входные_токены / 1 000 000) × цена_входа
          + (выходные_токены / 1 000 000) × цена_выхода

Например, для GPT-5 с ценой 100₽ за 1M входных и 800₽ за 1M выходных токенов запрос с 1 000 токенов промпта и 500 токенов ответа обойдётся в: (1 000 / 1 000 000) × 100 + (500 / 1 000 000) × 800 = 0.10 + 0.40 = 0.50₽.

Используйте калькулятор выше, чтобы подставить любую модель из каталога AITUNNEL и получить точную стоимость за запрос в рублях.

Точный подсчёт токенов через API

Самый точный способ узнать число токенов для конкретной модели — отправить запрос и посмотреть поле usage в ответе. API AITUNNEL полностью совместим с OpenAI SDK и возвращает usage для каждого запроса:

{
  "id": "chatcmpl-...",
  "object": "chat.completion",
  "model": "gpt-5",
  "choices": [...],
  "usage": {
    "prompt_tokens": 1024,
    "completion_tokens": 512,
    "total_tokens": 1536
  }
}

Это значение гарантированно соответствует тарификации. Если вы используете другие модели (Claude, Gemini, DeepSeek) с их собственными токенайзерами — usage от API будет точнее локального подсчёта.

Подключите этот инструмент через AITUNNEL

Все инструменты и модели доступны через единый API. Работает из России, оплата в рублях.

Единый API50+ моделейОплата в рублях
Начать работуРегистрация за 1 минуту

Часто задаваемые вопросы

Токены — это базовые единицы, на которые AI-модели разбивают текст перед обработкой. Один токен примерно соответствует 4 символам английского текста или 2–3 символам русского. Все языковые модели (GPT-5, GPT-4o, Claude, Gemini, DeepSeek) тарифицируются именно по токенам: вы платите за токены входа (промпт) и токены выхода (ответ). Подсчёт токенов нужен, чтобы заранее оценить стоимость запроса и убедиться, что текст помещается в контекстное окно модели.

Русские слова в токенизаторах OpenAI (включая o200k_base) делятся на больше токенов, чем английские. Грубое правило: одно русское слово ≈ 2–4 токена, одно английское слово ≈ 1–2 токена. Поэтому в русских промптах токенов обычно в 1.5–2 раза больше, чем в эквивалентном английском тексте. Современный энкодер o200k_base оптимизирован для многоязычности и работает с русским эффективнее, чем устаревший cl100k_base.

Все современные модели OpenAI — GPT-5, GPT-5 Codex, GPT-4o, GPT-4o-mini, GPT-4.1, o1, o3, o3-mini, o4-mini — используют энкодер o200k_base. Это позволяет считать токены для любой из этих моделей одним и тем же инструментом. У старых моделей (GPT-4, GPT-3.5) был cl100k_base, у GPT-3 — p50k_base или r50k_base.

Этот инструмент использует энкодер o200k_base от OpenAI. У Claude (Anthropic), Gemini (Google), DeepSeek и других моделей собственные токенайзеры, но количество токенов получается близким — обычно различие в пределах 5–15%. Для оценки стоимости запроса значения o200k_base дают хорошее приближение для любой современной LLM.

Используйте короткие формулировки и избегайте лишних повторов. Удаляйте ненужные форматирования (Markdown с большим количеством символов), пустые строки и комментарии в коде. Для длинных контекстов помогает резюмирование (summary) предыдущих сообщений. На русском часто эффективнее перейти на английский — это сокращает расход токенов в 1.5–2 раза при сохранении смысла.

Да. Подсчёт токенов происходит полностью в браузере — текст никуда не отправляется. Для встраивания в свой проект используйте пакет gpt-tokenizer (npm): import { encode, countTokens } from 'gpt-tokenizer/encoding/o200k_base'. Это та же библиотека, что и в нашем калькуляторе. Для подсчёта токенов на сервере она работает в Node.js без дополнительных настроек.

API AITUNNEL полностью совместим с OpenAI SDK и возвращает поле usage в каждом ответе на /v1/chat/completions: количество prompt_tokens, completion_tokens и total_tokens. Это самый надёжный способ узнать точное число токенов для конкретной модели и провайдера. Подключение занимает 5 минут — просто укажите base_url https://api.aitunnel.ru/v1 и наш API-ключ.

Возможные причины: 1) в стоимость запроса входят системные и служебные токены (роли сообщений, сепараторы) — это добавляет 3–7 токенов на каждое сообщение в чате; 2) модель использует другой токенайзер (например, Claude или Gemini); 3) включена кэширование токенов (prompt caching) — кэшированные токены стоят дешевле. Точное значение всегда возвращается в поле usage ответа API.