FAQ • gemini-2.5-flash

Поддерживает ли gemini-2.5-flash аудио на входе?

Подробный ответ на вопрос о gemini-2.5-flash через AITUNNEL API

gemini-2.5-flash

google
Контекст1 048 576 токенов
Вход57.60 ₽/1M
Выход480.00 ₽/1M

Ответ

Да, gemini-2.5-flash принимает аудио на входе.

Вы можете отправлять аудиозаписи напрямую в запросе — модель распознает речь, анализирует звуковой контент и отвечает на вопросы по аудио.

Для отправки аудио используйте элемент с типом input_audio в массиве content. Аудио передаётся в формате base64 (mp3, wav, webm).

Пример кода — ниже на странице.

Пример отправки аудио в gemini-2.5-flash

Отправьте аудиофайл в формате base64 для анализа в gemini-2.5-flash через AITUNNEL API:

import base64
from openai import OpenAI

client = OpenAI(
    api_key="ваш_ключ_aitunnel",
    base_url="https://api.aitunnel.ru/v1/"
)

# Читаем аудиофайл и кодируем в base64
with open("audio.mp3", "rb") as f:
    audio_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="gemini-2.5-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Транскрибируй это аудио"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_base64,
                        "format": "mp3"
                    }
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

Другие вопросы о gemini-2.5-flash

Этот же вопрос — другие модели

Попробуйте сами через AITUNNEL

Получите API ключ и протестируйте модели. Работает из России без VPN, оплата в рублях.

Быстрый стартОплата картой РФПоддержка
Начать работуРегистрация за 1 минуту