- A+
了解API中的Prompt Caching技术,如何通过OpenAI的新功能,让你的AI应用运行得更快,还能省下一大笔钱。本文肖肖将介绍Prompt Caching的工作原理、使用方法以及OpenAI提供的新工具包,帮助你优化AI应用的性能和成本。
什么是Prompt Caching?
简单来说,Prompt Caching就是把模型最近见过的输入缓存起来,这样下次再遇到相似的输入时,就不用重新计算了。这不仅能大大减少延迟,还能降低成本。
为什么要用Prompt Caching?
你可能会问,为什么要用这个技术呢?原因很简单:很多开发者在构建AI应用时,会多次使用相同的上下文,比如编辑代码或进行长对话。通过缓存这些重复的输入,我们可以节省大量的计算资源和时间。
OpenAI的新功能
最近,OpenAI推出了Prompt Caching功能,让这个过程变得更加简单和高效。这个功能适用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型,以及这些模型的微调版本。
- 自动折扣:对于模型最近见过的输入,Prompt Caching会自动应用折扣。比如,GPT-4o的未缓存输入每个token收费$2.50,而缓存输入只需$1.25。
- 减少延迟:通过缓存重复信息,Prompt Caching可以将延迟减少最多80%。
- 无缝集成:Prompt Caching会自动激活,不需要你对API集成做任何修改。
如何使用Prompt Caching?
使用Prompt Caching非常简单。当你向支持的模型发出API请求时,如果输入超过1024个token,系统会自动检查这个输入的前缀是否已经缓存。如果找到匹配的缓存(命中缓存),系统就会使用缓存的输入,从而减少延迟和成本。如果没有匹配的缓存,系统会从头处理整个输入,并缓存这个前缀以供将来使用。
总结
Prompt Caching是一种非常实用的技术,可以让你的AI应用运行得更快,还能省下一大笔钱。通过OpenAI的新功能,这个过程变得更加简单和高效。
[推荐] ChatGPT成品号:点击直达 (无需提供任何邮箱,下单后秒发ChatGPT账号)
[推荐] ChatGPT代注册:点击直达 (纯人工注册,注册100%成功)