只复用用户不会察觉到的答案。
問題
只看命中率還不夠。
LLM 語義快取確實能省錢,但只要出現一次錯誤命中,使用者就會開始懷疑模型是否可靠。CacheSafety Bench 衡量的是重用是否安全,而不是提示詞看起來是否相似。
核心指標
先衡量安全,再衡量規模。
生产缓存必须守住的硬性安全线。
只有在安全复用被计入后,节省才成立。
看起来相似的提示词是否仍会破坏复用。
運作方式
在信任快取之前,先走三步。
把 old_request、old_answer 和 new_request 送入保守的基准运行器。
检查旧答案是否真的满足新请求,而不会引入隐藏违规。
在生产上线前导出报告和保守的策略建议。
託管執行
本地基準免費且開源,託管執行只是選項。
NextModel 託管基準會消耗額度,用來執行更大規模的回放、判定模型與產生可分享報告。本地基準仍保持開源且與端點無關。
在把快取放進生產前,應先確認在安全前提下的節省是否成立。託管執行適合更大規模評估,不是使用這個基準的前提。
開發整合
相容 OpenAI 用戶端。
CacheSafety Bench 依然開源且與端點無關。NextModel 只是可選的託管端點與生產接入層。
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1常見問題
常見問題
这是语义缓存吗?
不是。CacheSafety Bench 是一个用于安全复用 LLM 响应的基准,而不是在默认情况下建议启用语义缓存。
我必须使用 NextModel 吗?
不用。本地基准运行是开源且与端点无关的。NextModel 的托管运行是可选的。
什么是坏命中?
坏命中是指旧答案不应该被返回给新请求,因为它违反了事实、约束、时间、格式或用户预期。
我可以本地运行吗?
可以。这个基准会优先设计成在本地运行,使用你控制的样例、合成或私有数据集。
我需要什么数据?
你需要包含 old_request、old_answer、new_request 的请求对或回放对,最好再加一条新的参考答案。
这怎么帮助降低 API 成本?
它会先衡量复用是否安全,再只基于安全命中估算节省。
它适合医疗、法律或金融场景吗?
这里不会默认把这些领域视为安全复用目标。高风险复用应继续保持保守。