谷歌 Gemini 2.5 API 推出隐式缓存功能,开发者成本最高降低75%

AI资讯11小时前发布 ainav
1 0

5月10日,科技媒体WinBuzzer报道指出,谷歌为其Gemini 2.5 API新增了一项名为”隐式缓存”(Implicit Caching)的功能。该功能能够自动识别并复用API请求中的重复前缀,使开发者的使用成本最高可降低75%。

这项创新功能主要面向Gemini 2.5 Pro和Gemini 2.5 Flash模型。系统会智能检测API请求中出现的重复前缀,并自动进行复用处理。这一机制使开发者能够显著减少调用次数,从而降低使用成本。

与2024年5月推出的”显式缓存”(Explicit Caching)不同,隐式缓存无需任何手动配置,系统会自动启用该功能。这种方式不仅降低了操作复杂度,还为客户节省了大量开发时间。

谷歌 Gemini 2.5 API 推出隐式缓存功能,开发者成本最高降低75%

为了提高隐式缓存的使用效率,谷歌建议开发者在设计提示词(Prompt)时遵循以下原则:首先放置那些相对稳定和通用的内容,然后再加上用户特有的变量信息。同时,在短时间内集中发送具有相似前缀的请求可以进一步提升缓存命中率。

此外,谷歌还设定了最低Token数量要求:Gemini 2.5 Flash模型需要至少1024个Token,而Gemini 2.5 Pro则需2048个Token。API响应中新增的”cached_content_token_count”字段将详细显示缓存Token的具体使用情况和计费优惠信息。

值得注意的是,显式缓存功能仍然作为可选方案提供,支持Gemini 2.5及更早版本的模型。开发者可以继续选择该模式,并根据需要自定义缓存内容及其有效时长(默认为1小时)。

尽管谷歌声称隐式缓存可使成本降低75%,但这一宣称仍需第三方测试机构进行验证,实际效果也可能因具体的使用场景和模式而有所差异。

谷歌 Gemini 2.5 API 推出隐式缓存功能,开发者成本最高降低75%

© 版权声明

相关文章