K

GPT Image 2 — обзор и тесты нового флагмана OpenAI

Пять структурированных тестов, сравнение GPT Image 2 с Midjourney V8 и Flux 2, разбор архитектуры и цен

21 апреля 2026 года OpenAI выкатила GPT Image 2 в ChatGPT и на следующий день открыла API-доступ. За двое суток модель набрала ELO 1512 на Arena.ai и вышла на первое место в двух чартах — текстово-изображение и редактирование — с отрывом в 242 пункта от ближайшего конкурента. GPT Image 1.5 опережал второе место на 30 пунктов. Разрыв такого масштаба на этом лидерборде не случался.

Архитектура — почему это не DALL-E

GPT Image 2 построен не на диффузии. OpenAI перешла на авторегрессионную архитектуру с Thinking-режимом на базе GPT-5.4 — модель планирует структуру кадра, расположение объектов и распределение света до того, как начинает генерировать пиксели.

Диффузионные модели работают через итеративное шумоподавление, и точная расстановка деталей там плохо поддаётся контролю. Авторегрессионная система предсказывает следующий токен — поэтому модель знает, что стоит справа от яблока, до того как нарисует яблоко. Это и объясняет прирост в следовании инструкциям. По той же причине сломался текст: диффузионные модели видят буквы как текстуру и искажают их, авторегрессионная — воспроизводит последовательность символов точно.

Рендеринг текста — 99% вместо 90%

GPT Image 1.5 работал на уровне 90–95% точности на символ. На вывеске из шести слов это минимум одна ошибка в трети случаев.

GPT Image 2 показывает 99% на 48 языках — латиница, кириллица, CJK-иероглифы, хинди, арабский, бенгальский. Тесты с кириллическими вывесками, заголовками постеров и ценниками дали 12 из 12 прогонов без ошибок. Изображение с текстом теперь не требует финального прогона через редактор.

Тест 1 — Лица и микромимика, 9.5/10

Промпты на тонкие эмоциональные нюансы, которые диффузионные модели обычно сглаживают — «40-летний мужчина с едва заметным удивлением в уголках глаз, кофейня, натуральное освещение», «пожилая женщина смеётся, мелкие морщины под глазами в контровом свете, без ретуши», «молодая женщина в переговорной, заметно уставшая, лёгкие синяки под глазами».

40-летний мужчина с лёгким удивлением в кофейне
Мужчина, кофейня, натуральное освещение
Пожилая женщина смеётся, контровой свет
Пожилая женщина, контровой свет
Женщина в переговорной, уставшая
Переговорная, усталость, тёмные круги

Текстура кожи, поры, жировые складки вокруг глаз при смехе — на месте без дополнительных указаний. На втором портрете контровой свет ловит отдельные волоски и даёт правильные рефлексы на скулах. На третьем модель добавила тёмные круги под глазами и слегка опущенные уголки рта — детали, которые не были прописаны явно. Минус — на промптах с «усталыми глазами» усталость иногда выглядит чуть нарочито. Балл 9.5.

Тест 2 — Текст внутри изображений, 9/10

Неоновая вывеска «Midnight Noodle Bar» с отражением в мокром асфальте, меню в стиле 1950-х с ценами, книжный магазин с названием «The Paper Architect» на стеклянной витрине.

Неоновая вывеска Midnight Noodle Bar
«Midnight Noodle Bar», отражение в лужах
Меню 1950-х с ценами
Меню 1950-х, Burgers $5.00, Shakes $3.00, Fries $2.00
Книжный магазин The Paper Architect
«The Paper Architect», засечковый шрифт на витрине

Все три строки без опечаток — включая цены в меню до цента. Неон отражается в лужах физически корректно, зеркальное отражение на асфальте читается. На витрине книжного засечковый шрифт выглядит профессионально. Снижение за то, что выбор гарнитур суховат — модель предпочитает аккуратные коммерческие решения. Балл 9.

Тест 3 — Точечное редактирование, 9.5/10

Два запроса на редактирование интерьера — «Замени синюю шёлковую подушку слева на жжёно-оранжевую велюровую с геометрическим принтом. Всё остальное без изменений» и «Добавь дымящийся эспрессо на деревянный столик справа, освещение как от лампы рядом».

Жжёно-оранжевая велюровая подушка с геометрическим принтом
Замена подушки — освещение и тени дивана не тронуты
Дымящийся эспрессо на столике у лампы
Добавленный эспрессо — пар и освещение совпадают с лампой

На первом кадре подушка поменялась, остальная сцена не сдвинулась — тени от окна на диване остались на месте. На втором пар от кофе идёт в правильную сторону и подсвечен теплом лампы, а не нейтральным светом. Балл 9.5.

Тест 4 — Знание о мире, 9/10

Промпты на специфические материалы — бруталистский жилой комплекс в Лондоне, чаша кинцуги с золотыми прожилками, моторный отсек мускл-кара 1960-х с V8.

Бруталистский жилой комплекс в Лондоне
Бруталистский комплекс, дождевые потёки на бетоне
Чаша кинцуги с золотыми прожилками
Кинцуги — прожилки объёмные, поднятые над поверхностью
Моторный отсек мускл-кара 1960-х с V8
V8 мускл-кара 1960-х — характерная проводка эпохи

Потёки на бетоне идут вертикально, как от лондонского дождя — не случайными пятнами. Прожилки кинцуги объёмные и поднятые над поверхностью, а не нарисованные поверх глазури. На V8 видна характерная для 1960-х компоновка — воздушный фильтр, расположение патрубков, форма клапанных крышек. Балл 9.

Тест 5 — Следование инструкциям, 10/10

Промпты с множеством конкурирующих деталей — «Деревянный стол. Красное яблоко слева. Наполовину полный стакан молока в центре. Открытая книга справа. Один луч света падает только на яблоко. Фон абсолютно чёрный. Страницы пожелтевшие. На поверхности молока маленький пузырь.»

Яблоко, молоко и книга — луч только на яблоко, чёрный фон
Луч только на яблоко, молоко и книга в тени
Человек рисует кота на планшете, рядом сидит настоящий кот
Зелёное кольцо на большом пальце левой руки
Площадь: дождь слева, солнце справа
Дождь слева, солнце справа, тень мужчины к центру

Пузырёк на молоке — есть. Луч только на яблоко — есть, книга и стакан остались в тени. Пожелтевшие страницы — есть. Зелёное кольцо на большом пальце левой руки — на большом, не указательном. На городской сцене тень от мужчины в жёлтом плаще падает к центру кадра, как и было указано. Балл 10.

ТестБаллЧто проверялось
Лица и мимика9.5Текстура кожи, микровыражения, корректное освещение
Текст внутри изображений9.0Кириллица, латиница, точные строки без опечаток
Точечное редактирование9.5Изоляция объекта, сохранение теней и освещения
Знание о мире9.0Специфические материалы, архитектура, технические детали
Следование инструкциям10Множество конкурирующих деталей в одном кадре
Таблица 1. Результаты тестирования gpt-image-2 по пяти сценариям. Оценка из 10 по критериям: соответствие промпту, техническое качество, стабильность между прогонами, практическая ценность.

Разрешение 4K и скорость

Максимальное разрешение — 4096×4096 в бета-режиме, стандартное до 2048×2048. Одним запросом генерируется до 8 изображений с удержанием характеристик персонажа между кадрами — удобно для комиксов, сторибордов и пошаговых инструкций, где раньше приходилось склеивать результаты нескольких прогонов вручную.

Скорость — около 15 секунд в стандартном режиме. Midjourney V8 и Nano Banana 2 быстрее, но на задачах с текстом и точным следованием инструкциям скорость не компенсирует потерю качества.

API и стоимость

Модель доступна по идентификатору gpt-image-2 через OpenAI API. Одно изображение 1024×1024 обходится в $0.04–0.10 в зависимости от качества ($8 за миллион входных токенов, $30 за выходные). ChatGPT Plus ($20/мес) включает базовый доступ, ChatGPT Pro ($200/мес) — без ограничений.

Для разработчиков в России — AITUNNEL, OpenAI-совместимый endpoint с оплатой в рублях. Меняете base_url на https://api.aitunnel.ru/v1/, передаёте model: "gpt-image-2" — и готово.

from openai import OpenAI
import base64

client = OpenAI(
    api_key="YOUR_AITUNNEL_KEY",
    base_url="https://api.aitunnel.ru/v1/"
)

response = client.images.generate(
    model="gpt-image-2",
    prompt="Neon sign reading 'Midnight Noodle Bar' in a rainy cyberpunk alley",
    size="1024x1024",
    quality="high",
    n=1,
)

image_data = base64.b64decode(response.data[0].b64_json)
with open("result.png", "wb") as f:
    f.write(image_data)
import OpenAI from "openai";
import fs from "fs";

const client = new OpenAI({
  apiKey: "YOUR_AITUNNEL_KEY",
  baseURL: "https://api.aitunnel.ru/v1/",
});

const response = await client.images.generate({
  model: "gpt-image-2",
  prompt: "Neon sign reading 'Midnight Noodle Bar' in a rainy cyberpunk alley",
  size: "1024x1024",
  quality: "high",
  n: 1,
});

const imageData = Buffer.from(response.data[0].b64_json, "base64");
fs.writeFileSync("result.png", imageData);

Сравнение с конкурентами

Четыре основные альтернативы в 2026 году — Midjourney V8, Nano Banana 2 (Gemini 3.1 Flash Image от Google), Flux 2 Max и Stable Diffusion.

МодельТекстФотореализмСкоростьРедактированиеЛучшее применение
GPT Image 2★★★★★★★★★★★★★★★★★★★Точность, редактирование, текст
Midjourney V8★★★★★★★★★★★★★★Арт-направление, стилизация
Nano Banana 2★★★★★★★★★★★★★★★★Быстрый брейнсторм, большой объём
Flux 2 Max★★★★★★★★★★★★★★★Open-source пайплайны, API-cost
Stable Diffusion★★★★★★★★★★★★★★Локальный запуск, fine-tuning
Таблица 2. Сравнение gpt-image-2 с ключевыми конкурентами по четырём критериям. Оценка субъективная, на основе тестирования и публичных бенчмарков Arena.ai.

Midjourney V8 выигрывает на художественных задачах без строгих требований к точности. Flux 2 и Stable Diffusion — для тех, кто строит собственный пайплайн с контролем над инфраструктурой. Nano Banana 2 — когда нужно быстро перебрать 20 концепций за час. GPT Image 2 — когда первый результат должен быть готов к использованию без доработки.

Для кого подходит

GPT Image 2 закрывает задачи с требованиями к точности — маркетинговые баннеры с читаемыми заголовками, e-commerce-визуалы, UI-макеты, инфографика, сторибординг с постоянным персонажем. Шаг «добавить текст в Photoshop» уходит.

Слабое место — стилизованные иллюстрации и хаотичные фэнтезийные сцены. Модель тяготеет к фотореализму и коммерческой аккуратности, и на концептуальном арт-направлении без жёстких требований к деталям Midjourney V8 даёт более интересный результат.

Консистентность персонажа внутри одной сессии (до 8 изображений) — хорошая. Между независимыми запросами на одного персонажа — 80–85% совпадения. Для серийного контента этого достаточно в большинстве случаев.

GPT Image 2

Флагман

Флагманская image-модель OpenAI с авторегрессионной архитектурой на базе GPT-5.4. Поддерживает 99% точности рендеринга текста на 48 языках, разрешение до 4K, генерацию до 8 изображений за запрос с удержанием характеристик персонажа. Занимает #1 на Arena.ai с ELO 1512 — отрыв от второго места 242 пункта.

Ключевые преимущества

  • 99% точность рендеринга текста на 48 языках (латиница, CJK, кириллица, арабский)
  • ELO 1512 на Arena.ai — #1 в text-to-image и image edit
  • Точечное редактирование без нарушения освещения и теней
  • 8 последовательных изображений с удержанием персонажа
  • Разрешение до 4096×4096 в бета-режиме
  • Архитектура GPT-5.4 с Thinking-режимом — модель планирует композицию до генерации

Подходит для

  • Маркетинговые материалы и рекламные баннеры с текстом
  • UI-макеты и прототипы интерфейсов
  • Product-фотография и e-commerce визуалы
  • Инфографика и постеры с читаемыми подписями
  • Сторибординг и комиксы с постоянным персонажем
Подробнее о модели

Итог

GPT Image 2 закрыл два главных раздражителя в AI-генерации — кривой текст и игнорирование деталей промпта. Авторегрессионная архитектура на базе GPT-5.4 даёт 99% точности на символ на 48 языках и 10/10 на стресс-тестах по следованию инструкциям. ELO 1512 с отрывом 242 пункта на Arena.ai подтверждён реальным голосованием пользователей. Для маркетологов, продуктовых дизайнеров и всех, кто работает с коммерческим контентом — переходить сейчас. Для художников и арт-экспериментов — Midjourney V8.

Часто задаваемые вопросы

Чем GPT Image 2 отличается от DALL-E 3?

GPT Image 2 построен на принципиально другой авторегрессионной архитектуре с GPT-5.4 в основе. DALL-E 3 — диффузионная модель. На практике: GPT Image 2 рендерит текст с 99% точностью против ~70–80% у DALL-E 3, лучше следует сложным многодетальным промптам и поддерживает точечное редактирование с сохранением освещения.

Сколько стоит использование GPT Image 2?

Через ChatGPT Plus ($20/мес) — базовый доступ включён. Через API: $8 за миллион входных токенов и $30 за миллион выходных. Одно изображение 1024×1024 среднего качества обходится в $0.04–0.10. Пользователи в России могут подключаться через AITUNNEL с оплатой в рублях.

Поддерживает ли GPT Image 2 кириллицу и русский язык?

Да. Кириллица входит в число 48 поддерживаемых языков. В тестах с русскоязычными вывесками, заголовками и текстами модель не допустила ни одной ошибки в 12 прогонах. Это принципиальное улучшение по сравнению с предыдущими image-моделями.

Можно ли загружать свои изображения для редактирования?

Да. GPT Image 2 принимает входные изображения и редактирует их по текстовому запросу. Поддерживается точечное изменение отдельных объектов, добавление элементов в сцену и смена характеристик при сохранении освещения и теней остального кадра.

Чем GPT Image 2 хуже Midjourney V8?

Midjourney V8 лучше для стилизованных и художественных задач без строгих требований к точности. GPT Image 2 тяготеет к фотореализму и коммерческой корректности — абстрактное арт-направление и хаотичные фэнтезийные сцены у него выходят более сдержанно. Если основная задача — художественная экспрессия, Midjourney V8 ближе.

Доступ к этому провайдеру через AITUNNEL

Все модели провайдера доступны через единый API. Работает из России без VPN, оплата в рублях.

Единый APIОплата картой РФБез VPN
Начать работуРегистрация за 1 минуту

Статьи по теме

Комментарии

Оставить комментарий

Поделитесь опытом использования этой модели

* Обязательные поля
Будьте первым, кто оставит комментарий к этой модели
ПопробоватьВсе модели