При работе с языковыми моделями значительная часть запроса часто повторяется: системный промпт, инструкции, описание инструментов, загруженные документы. Модель вынуждена обрабатывать один и тот же текст снова и снова.
Кэширование промптов решает эту проблему. Провайдер запоминает начало запроса (префикс), и если следующий запрос начинается так же, повторная обработка не требуется. Кэшированные токены тарифицируются по сниженной ставке, а ответ приходит быстрее.
Модель проверяет, совпадает ли начало нового запроса с тем, что уже обработано ранее. Если совпадает — это попадание в кэш (cache hit). Совпадение всегда идёт с начала запроса: если первые 5 000 токенов одинаковые, а дальше идёт новый вопрос пользователя — первые 5 000 будут взяты из кэша.
Поэтому важно располагать содержимое запроса правильно:
- В начале — неизменяемые части: системный промпт, инструкции, описание инструментов, загруженные документы
- В конце — изменяемая часть: вопрос пользователя, новые данные
- Длинный системный промпт, одинаковый для всех запросов
- Анализ документа: один и тот же текст с разными вопросами к нему
- Многоступенчатые диалоги: история переписки нарастает, но начало всегда одинаковое
- Агенты с большим набором инструментов (tools/functions)
| Провайдер | Тип кэширования | Скидка на кэш | Запись в кэш | Мин. длина |
|---|---|---|---|---|
| OpenAI | Автоматическое | до 90% | Бесплатно | 1 024 токена |
| Автоматическое | до 90% | Бесплатно | 1 024–4 096 токенов | |
| Anthropic | Автоматическое или явное | 90% | Платно (1.25× от ввода) | 1 024–4 096 токенов |
Подробности о работе кэширования для каждого провайдера — в соответствующих разделах документации.
ProxyAPI автоматически распознаёт кэшированные токены в ответах провайдеров и тарифицирует их по сниженной ставке. Специальной настройки не требуется — экономия применяется автоматически. Стоимость кэшированных токенов отображается на странице цен отдельной строкой «Кэш чтение».