Кэширование промптов

При работе с языковыми моделями значительная часть запроса часто повторяется: системный промпт, инструкции, описание инструментов, загруженные документы. Модель вынуждена обрабатывать один и тот же текст снова и снова.

Кэширование промптов решает эту проблему. Провайдер запоминает начало запроса (префикс), и если следующий запрос начинается так же, повторная обработка не требуется. Кэшированные токены тарифицируются по сниженной ставке, а ответ приходит быстрее.

Модель проверяет, совпадает ли начало нового запроса с тем, что уже обработано ранее. Если совпадает — это попадание в кэш (cache hit). Совпадение всегда идёт с начала запроса: если первые 5 000 токенов одинаковые, а дальше идёт новый вопрос пользователя — первые 5 000 будут взяты из кэша.

Поэтому важно располагать содержимое запроса правильно:

В начале — неизменяемые части: системный промпт, инструкции, описание инструментов, загруженные документы
В конце — изменяемая часть: вопрос пользователя, новые данные

Длинный системный промпт, одинаковый для всех запросов
Анализ документа: один и тот же текст с разными вопросами к нему
Многоступенчатые диалоги: история переписки нарастает, но начало всегда одинаковое
Агенты с большим набором инструментов (tools/functions)

Провайдер	Тип кэширования	Скидка на кэш	Запись в кэш	Мин. длина
OpenAI	Автоматическое	до 90%	Бесплатно (с GPT-5.6 — 1.25× от ввода)	1 024 токена
Google	Автоматическое	до 90%	Бесплатно	1 024–4 096 токенов
Anthropic	Автоматическое или явное	90%	Платно (1.25× от ввода)	1 024–4 096 токенов

Подробности о работе кэширования для каждого провайдера — в соответствующих разделах документации.

ProxyAPI автоматически распознаёт кэшированные токены в ответах провайдеров и тарифицирует их по сниженной ставке. Специальной настройки не требуется — экономия применяется автоматически. Стоимость чтения из кэша отображается на странице цен отдельной строкой «Кэш чтение», а платной записи в кэш (OpenAI GPT-5.6+ и Anthropic) — строкой «Кэш запись».

Что такое кэширование

Как это работает

Когда кэширование полезно

Поддержка у провайдеров

Как ProxyAPI учитывает кэш