Batch Processing позволяет отправить сразу большой набор запросов к модели и получить результаты асинхронно — не в реальном времени, а в течение определённого окна (как правило, до 24 часов). Взамен провайдеры дают скидку 50% на токены по сравнению с обычными синхронными запросами.

Идея простая: если ответ не нужен немедленно, обработку можно подождать ради ощутимой экономии.

  • Массовая генерация эмбеддингов для базы документов
  • Классификация или разметка больших объёмов данных
  • Прогон оценочных тестов (evals)
  • Любая фоновая обработка, где задержка в несколько часов некритична

Если нужен мгновенный ответ (чат, интерактивный сценарий) — используйте обычные синхронные запросы.

  1. Вы формируете набор запросов, каждый со своим идентификатором.
  2. Отправляете их одной операцией создания пакета (batch).
  3. Провайдер обрабатывает запросы в фоне и складывает результаты.
  4. Вы периодически запрашиваете статус пакета (polling), пока он не завершится.
  5. Забираете результаты — каждый ответ соотносится с исходным запросом по его идентификатору.

Пакет может завершиться раньше, но гарантированное окно — 24 часа. Если за это время провайдер не успел обработать все запросы, вы получаете результаты тех, что успели.

ПровайдерСпособ отправкиСкидкаОкноХранение результатов
OpenAIФайл JSONL (загрузка перед созданием)50%до 24 ч30 дней
AnthropicЗапросы в теле (inline)50%до 24 ч29 дней
Google GeminiЗапросы в теле (inline)50%до 24 ч48 ч с момента создания

Подробности и примеры для каждого провайдера — в соответствующих разделах документации (OpenAI, Anthropic, Google).

  • Скидка 50%. Токены пакетных запросов тарифицируются по отдельной batch-ставке — вдвое дешевле обычной. Скидка действует только для моделей, у которых она настроена; актуальный список — на странице цен.
  • Платите только за выполненное. Списание происходит по завершении пакета и считается по фактическому использованию из успешных результатов. За отменённые, истёкшие или завершившиеся ошибкой запросы плата не взимается.
  • Проверка баланса при создании. Перед запуском ProxyAPI оценивает максимальную стоимость пакета и требует, чтобы на балансе была сумма с запасом. Если средств недостаточно — пакет не создаётся.

  • Только ваши пакеты. Доступ к пакету возможен только по его идентификатору и только владельцу. Метода «получить список всех пакетов» нет — сохраняйте идентификаторы, которые возвращает создание пакета.
  • Формат — как у провайдера. ProxyAPI не вводит собственный формат: запросы и ответы полностью совпадают с оригинальным Batch API провайдера, поэтому официальные SDK совместимы.
  • Модель должна поддерживать batch. Если хотя бы один запрос в пакете ссылается на модель без batch-тарифа или на неподдерживаемый эндпоинт, весь пакет отклоняется при создании — частично обработанных пакетов не бывает.
ProxyAPI Logo

Доступ к последним разработкам мировых лидеров в области AI для вашего проекта или бизнеса в России. Без VPN и блокировок. Оплата в рублях.

Accepted payment methods