Ответ
Через AITUNNEL доступны следующие модели с поддержкой аудио на входе (Audio Input) (8 моделей):
openai: gpt-audio, gpt-audio-mini, gpt-4o-audio-preview
google: gemini-3-flash-preview, gemini-3-pro-preview, gemini-2.5-flash-lite, gemini-2.5-flash, gemini-2.5-pro
Для отправки аудио используйте элемент с типом input_audio в массиве content. Аудио передаётся в формате base64 (mp3, wav, webm). Модели распознают речь, анализируют звуковой контент и отвечают на вопросы по аудиозаписям.
Все модели доступны через единый API ключ AITUNNEL. Список обновляется автоматически — актуальные данные всегда на странице моделей.
Пример отправки аудио через AITUNNEL API
Отправьте аудиофайл в модель с поддержкой аудио:
import base64
from openai import OpenAI
client = OpenAI(
api_key="ваш_ключ_aitunnel",
base_url="https://api.aitunnel.ru/v1/"
)
# Читаем аудиофайл и кодируем в base64
with open("audio.mp3", "rb") as f:
audio_base64 = base64.b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="gemini-2.5-pro-preview-06-05", # или gemini-2.5-pro, gpt-4o-audio и др.
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Транскрибируй это аудио"},
{
"type": "input_audio",
"input_audio": {
"data": audio_base64,
"format": "mp3"
}
}
]
}
]
)
print(response.choices[0].message.content)Похожие вопросы
- Какие модели OpenAI принимают картинки (Vision)?
- Какие модели Anthropic/Claude поддерживают распознавание картинок?
- Какие модели Google/Gemini поддерживают картинки?
- Какие модели OpenAI поддерживают tool calling?
- Какие модели Anthropic/Claude поддерживают tool calling?
- Какие модели Google/Gemini поддерживают tool calling?
Попробуйте сами через AITUNNEL
Получите API ключ и протестируйте модели. Работает из России без VPN, оплата в рублях.