Audio API предоставляет конечную точку speech на основе модели GPT-4o mini TTS для преобразования текста в естественную речь. API поддерживает 11 встроенных голосов и может использоваться для:

  • Озвучивания статей и блогов
  • Создания многоязычного аудиоконтента
  • Потоковой передачи аудио в реальном времени

В соответствии с политикой использования необходимо уведомлять конечных пользователей о том, что они слышат речь, сгенерированную ИИ.

  • gpt-4o-mini-tts - новейшая модель с возможностью управления речевыми характеристиками через инструкции
  • tts-1 - обеспечивает низкую задержку, но с меньшим качеством
  • tts-1-hd - повышенное качество звука, но с большей задержкой

Доступно 11 голосов: alloy, ash, ballad, coral, echo, fable, nova, onyx, sage, shimmer. Голоса оптимизированы для английского языка.

curl "https://api.proxyapi.ru/openai/v1/audio/speech" \
    -H "Authorization: Bearer <КЛЮЧ>" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-4o-mini-tts",
        "input": "Привет! Сегодня замечательный день для создания чего-то удивительного.",
        "voice": "coral",
        "instructions": "Говори с радостной и позитивной интонацией."
    }' \
    --output speech.mp3

curl "https://api.proxyapi.ru/openai/v1/audio/speech" \
    -H "Authorization: Bearer <КЛЮЧ>" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-4o-mini-tts",
        "input": "Это пример потокового синтеза речи в реальном времени.",
        "voice": "coral",
        "response_format": "wav",
        "instructions": "Говори четко и размеренно."
    }' | ffplay -i -

  • mp3 (по умолчанию) - универсальный формат для большинства приложений
  • opus - оптимален для интернет-стриминга и коммуникаций с низкой задержкой
  • aac - предпочтителен для цифрового сжатия аудио, YouTube, Android, iOS
  • flac - сжатие без потерь, популярно среди аудиофилов для архивирования
  • wav - несжатый формат, подходит для приложений с низкой задержкой
  • pcm - сырые семплы 24 кГц (16-бит signed, little-endian), без заголовка

Для минимального времени отклика рекомендуется использовать форматы wav или pcm.

Модель TTS поддерживает те же языки, что и модель Whisper, включая русский, английский, французский, немецкий, китайский, японский и многие другие. Голоса оптимизированы для английского языка, но хорошо работают с другими языками.

С моделью gpt-4o-mini-tts можно управлять аспектами речи через параметр instructions:

  • Акцент
  • Эмоциональная окраска
  • Интонация
  • Имитация
  • Скорость речи
  • Тон голоса
  • Шепот

  • Пользовательские голоса не поддерживаются
  • Необходимо уведомлять пользователей о том, что речь сгенерирована ИИ
  • Владельцем созданного аудио является тот, кто его создал
ProxyAPI Logo

Доступ к последним разработкам мировых лидеров в области AI для вашего проекта или бизнеса в России. Без VPN и блокировок. Оплата в рублях.

Accepted payment methods