什麼是 CacheSafety Bench？

CacheSafety Bench 用於衡量 LLM 回應是否能安全重用，並比較安全命中率、錯誤命中率、語義陷阱失敗率與可節省成本。

CacheSafety Bench 是語義快取嗎？

不是。CacheSafety Bench 是一個衡量流程，不是在主張應該預設啟用語義快取。

快取基準

CacheSafety Bench

在啟用生產快取前，先評估 LLM 回應重用是否安全。

執行託管基準查看 GitHub 估算成本節省

多數快取基準只看命中率；CacheSafety Bench 會同時衡量安全命中率、錯誤命中率與 API 成本節省。

閱讀文件

問題

只看命中率還不夠。

LLM 語義快取確實能省錢，但只要出現一次錯誤命中，使用者就會開始懷疑模型是否可靠。CacheSafety Bench 衡量的是重用是否安全，而不是提示詞看起來是否相似。

核心指標

先衡量安全，再衡量規模。

安全性安全命中率

只复用用户不会察觉到的答案。

护栏坏命中率

生产缓存必须守住的硬性安全线。

$/K

经济性每千请求节省成本

只有在安全复用被计入后，节省才成立。

陷阱测试语义陷阱失败率

看起来相似的提示词是否仍会破坏复用。

運作方式

在信任快取之前，先走三步。

回放回放请求对

把 old_request、old_answer 和 new_request 送入保守的基准运行器。

判定判断是否安全复用

检查旧答案是否真的满足新请求，而不会引入隐藏违规。

策略估算安全节省

在生产上线前导出报告和保守的策略建议。

報告預覽

靜態示例報告

有用的快取策略，是在省錢的同時不讓使用者察覺答案被重用了。

樣本對總數2,000

安全命中率18.4%

錯誤命中率0.0%

每千請求節省成本$0.42

建議策略精确匹配 + 规范化

語義快取暂不推荐

估算成本節省閱讀文件

託管執行

本地基準免費且開源，託管執行只是選項。

NextModel 託管基準會消耗額度，用來執行更大規模的回放、判定模型與產生可分享報告。本地基準仍保持開源且與端點無關。

在把快取放進生產前，應先確認在安全前提下的節省是否成立。託管執行適合更大規模評估，不是使用這個基準的前提。

從免費額度開始

開發整合

相容 OpenAI 用戶端。

CacheSafety Bench 依然開源且與端點無關。NextModel 只是可選的託管端點與生產接入層。

OpenAI 相容範例

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

常見問題

这是语义缓存吗？

不是。CacheSafety Bench 是一个用于安全复用 LLM 响应的基准，而不是在默认情况下建议启用语义缓存。

我必须使用 NextModel 吗？

不用。本地基准运行是开源且与端点无关的。NextModel 的托管运行是可选的。

什么是坏命中？

坏命中是指旧答案不应该被返回给新请求，因为它违反了事实、约束、时间、格式或用户预期。

我可以本地运行吗？

可以。这个基准会优先设计成在本地运行，使用你控制的样例、合成或私有数据集。

我需要什么数据？

你需要包含 old_request、old_answer、new_request 的请求对或回放对，最好再加一条新的参考答案。

这怎么帮助降低 API 成本？

它会先衡量复用是否安全，再只基于安全命中估算节省。

它适合医疗、法律或金融场景吗？

这里不会默认把这些领域视为安全复用目标。高风险复用应继续保持保守。

現在開始

在生產前先確認 LLM 回應重用是否足夠安全。

先在本地執行開放基準；只有在你需要更大規模回放與可分享報告時，再使用可選的託管工作流。

執行託管基準閱讀文件