Мультимодальность — способность AI модели обрабатывать и генерировать разные типы данных одновременно.
Типы модальностей:
- Текст: Понимание и генерация текста
- Изображения: Анализ и создание картинок
- Аудио: Распознавание и синтез речи
- Видео: Понимание и генерация видео
Мультимодальные модели:
- GPT-5 (текст + изображения + аудио)
- Gemini 2.5 (текст + изображения + видео + аудио)
- Claude Sonnet 4 (текст + изображения)
Примеры
- Загрузить фото и спросить 'Что на картинке?'
- Анализ графиков и диаграмм
Попробуйте AI на практике
AITUNNEL даёт доступ к GPT-5, Claude, Gemini и другим моделям. Изучайте AI на практике, а не только в теории.
50+ моделейДокументацияПримеры кода
Начать работуРегистрация за 1 минуту