Изменения в кэшировании Anthropic API и их влияние на стоимость LLM
Ключевые факты
- 1 Снижение производительности LLM оспаривается автором из-за неконтролируемого тестирования.
- 2 Anthropic изменил стандартное время кэширования API с 1 часа до 5 минут для новых проектов в марте 2024 года.
- 3 Изменение кэширования может увеличить расходы для агентов с длительными вызовами инструментов.
- 4 Официальная политика кэширования Anthropic предлагает 100% скидку на 1-часовой кэш и 25% на 5-минутный.
- 5 Claude 3 Opus имеет контекстное окно 200K токенов, а не 1M.
В сообществе LLM существует дискуссия о возможном снижении производительности моделей со временем, однако автор поста не согласен с этим утверждением применительно к OpenAI и Anthropic, связывая подобные наблюдения с отсутствием строгой методологии тестирования. Отмечается, что Anthropic ранее сталкивался с багами, затрагивавшими до 20% сессий, но оперативно их исправлял и публично информировал об этом. Ключевое изменение, затронувшее пользователей Anthropic, произошло в начале марта 2024 года, когда компания изменила время кэширования запросов по умолчанию. Для новых API-ключей и проектов стандартное время кэширования было сокращено с 1 часа до 5 минут. Это изменение, по заявлению Anthropic, призвано оптимизировать расходы и улучшить работу для большинства пользователей, чьи запросы являются разовыми и не требуют длительных вызовов. Однако для "продвинутых" пользователей, использующих агентов с инструментами, работающими более 5 минут, это изменение может привести к значительному увеличению стоимости запросов. Если предыдущий запрос не попадает в 5-минутный кэш, следующий запрос будет оплачиваться по полной цене. Это особенно критично при использовании больших контекстных окон, таких как 200K токенов в Claude 3 Opus, так как каждый запрос становится дороже.