Audio API предоставляет конечную точку speech
на основе модели GPT-4o mini TTS для преобразования текста в естественную речь. API поддерживает 11 встроенных голосов и может использоваться для:
- Озвучивания статей и блогов
- Создания многоязычного аудиоконтента
- Потоковой передачи аудио в реальном времени
В соответствии с политикой использования необходимо уведомлять конечных пользователей о том, что они слышат речь, сгенерированную ИИ.
- gpt-4o-mini-tts - новейшая модель с возможностью управления речевыми характеристиками через инструкции
- tts-1 - обеспечивает низкую задержку, но с меньшим качеством
- tts-1-hd - повышенное качество звука, но с большей задержкой
Доступно 11 голосов: alloy
, ash
, ballad
, coral
, echo
, fable
, nova
, onyx
, sage
, shimmer
. Голоса оптимизированы для английского языка.
curl "https://api.proxyapi.ru/openai/v1/audio/speech" \ -H "Authorization: Bearer <КЛЮЧ>" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-4o-mini-tts", "input": "Привет! Сегодня замечательный день для создания чего-то удивительного.", "voice": "coral", "instructions": "Говори с радостной и позитивной интонацией." }' \ --output speech.mp3
curl "https://api.proxyapi.ru/openai/v1/audio/speech" \ -H "Authorization: Bearer <КЛЮЧ>" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-4o-mini-tts", "input": "Это пример потокового синтеза речи в реальном времени.", "voice": "coral", "response_format": "wav", "instructions": "Говори четко и размеренно." }' | ffplay -i -
- mp3 (по умолчанию) - универсальный формат для большинства приложений
- opus - оптимален для интернет-стриминга и коммуникаций с низкой задержкой
- aac - предпочтителен для цифрового сжатия аудио, YouTube, Android, iOS
- flac - сжатие без потерь, популярно среди аудиофилов для архивирования
- wav - несжатый формат, подходит для приложений с низкой задержкой
- pcm - сырые семплы 24 кГц (16-бит signed, little-endian), без заголовка
Для минимального времени отклика рекомендуется использовать форматы wav
или pcm
.
Модель TTS поддерживает те же языки, что и модель Whisper, включая русский, английский, французский, немецкий, китайский, японский и многие другие. Голоса оптимизированы для английского языка, но хорошо работают с другими языками.
С моделью gpt-4o-mini-tts
можно управлять аспектами речи через параметр instructions
:
- Акцент
- Эмоциональная окраска
- Интонация
- Имитация
- Скорость речи
- Тон голоса
- Шепот
- Пользовательские голоса не поддерживаются
- Необходимо уведомлять пользователей о том, что речь сгенерирована ИИ
- Владельцем созданного аудио является тот, кто его создал