Vision — возможность языковых моделей обрабатывать и анализировать изображения.
Что можно делать:
- Описывать содержимое изображений
- Отвечать на вопросы о картинках
- Извлекать текст (OCR)
- Анализировать графики и диаграммы
- Распознавать объекты и лица
Модели с Vision:
- GPT-5, GPT-5.2 (Vision)
- Claude Sonnet 4 (все версии)
- Gemini 2.5
Как использовать: передайте изображение в base64 или по URL вместе с текстовым промптом.
Примеры
- Загрузить чек и попросить извлечь данные
- Анализ скриншотов интерфейсов
Попробуйте AI на практике
AITUNNEL даёт доступ к GPT-5, Claude, Gemini и другим моделям. Изучайте AI на практике, а не только в теории.
50+ моделейДокументацияПримеры кода
Начать работуРегистрация за 1 минуту