Синтез речи - OpenAI - Документация ProxyAPI

Audio API предоставляет конечную точку speech на основе модели GPT-4o mini TTS для преобразования текста в естественную речь. API поддерживает 11 встроенных голосов и может использоваться для:

Озвучивания статей и блогов
Создания многоязычного аудиоконтента
Потоковой передачи аудио в реальном времени

В соответствии с политикой использования необходимо уведомлять конечных пользователей о том, что они слышат речь, сгенерированную ИИ.

gpt-4o-mini-tts - новейшая модель с возможностью управления речевыми характеристиками через инструкции
tts-1 - обеспечивает низкую задержку, но с меньшим качеством
tts-1-hd - повышенное качество звука, но с большей задержкой

Доступно 11 голосов: alloy, ash, ballad, coral, echo, fable, nova, onyx, sage, shimmer. Голоса оптимизированы для английского языка.


curl "https://api.proxyapi.ru/openai/v1/audio/speech" \
    -H "Authorization: Bearer <КЛЮЧ>" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-4o-mini-tts",
        "input": "Привет! Сегодня замечательный день для создания чего-то удивительного.",
        "voice": "coral",
        "instructions": "Говори с радостной и позитивной интонацией."
    }' \
    --output speech.mp3


curl "https://api.proxyapi.ru/openai/v1/audio/speech" \
    -H "Authorization: Bearer <КЛЮЧ>" \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-4o-mini-tts",
        "input": "Это пример потокового синтеза речи в реальном времени.",
        "voice": "coral",
        "response_format": "wav",
        "instructions": "Говори четко и размеренно."
    }' | ffplay -i -

mp3 (по умолчанию) - универсальный формат для большинства приложений
opus - оптимален для интернет-стриминга и коммуникаций с низкой задержкой
aac - предпочтителен для цифрового сжатия аудио, YouTube, Android, iOS
flac - сжатие без потерь, популярно среди аудиофилов для архивирования
wav - несжатый формат, подходит для приложений с низкой задержкой
pcm - сырые семплы 24 кГц (16-бит signed, little-endian), без заголовка

Для минимального времени отклика рекомендуется использовать форматы wav или pcm.

Модель TTS поддерживает те же языки, что и модель Whisper, включая русский, английский, французский, немецкий, китайский, японский и многие другие. Голоса оптимизированы для английского языка, но хорошо работают с другими языками.

С моделью gpt-4o-mini-tts можно управлять аспектами речи через параметр instructions:

Акцент
Эмоциональная окраска
Интонация
Имитация
Скорость речи
Тон голоса
Шепот

Пользовательские голоса не поддерживаются
Необходимо уведомлять пользователей о том, что речь сгенерирована ИИ
Владельцем созданного аудио является тот, кто его создал

Синтез речи OpenAI API

Модели

Голоса

Примеры

Базовый синтез речи

Потоковое воспроизведение

Поддерживаемые форматы

Поддерживаемые языки

Управление характеристиками речи

Ограничения