Loading...Working on your request
快取基準

CacheSafety Bench

在啟用生產快取前,先評估 LLM 回應重用是否安全。

多數快取基準只看命中率;CacheSafety Bench 會同時衡量安全命中率、錯誤命中率與 API 成本節省。

閱讀文件

問題

只看命中率還不夠。

LLM 語義快取確實能省錢,但只要出現一次錯誤命中,使用者就會開始懷疑模型是否可靠。CacheSafety Bench 衡量的是重用是否安全,而不是提示詞看起來是否相似。

核心指標

先衡量安全,再衡量規模。

SH
安全性安全命中率

只复用用户不会察觉到的答案。

BH
护栏坏命中率

生产缓存必须守住的硬性安全线。

$/K
经济性每千请求节省成本

只有在安全复用被计入后,节省才成立。

TR
陷阱测试语义陷阱失败率

看起来相似的提示词是否仍会破坏复用。

運作方式

在信任快取之前,先走三步。

P1
回放回放请求对

把 old_request、old_answer 和 new_request 送入保守的基准运行器。

P2
判定判断是否安全复用

检查旧答案是否真的满足新请求,而不会引入隐藏违规。

P3
策略估算安全节省

在生产上线前导出报告和保守的策略建议。

報告預覽

靜態示例報告

有用的快取策略,是在省錢的同時不讓使用者察覺答案被重用了。

樣本對總數2,000
安全命中率18.4%
錯誤命中率0.0%
每千請求節省成本$0.42
建議策略精确匹配 + 规范化
語義快取暂不推荐

託管執行

本地基準免費且開源,託管執行只是選項。

NextModel 託管基準會消耗額度,用來執行更大規模的回放、判定模型與產生可分享報告。本地基準仍保持開源且與端點無關。

在把快取放進生產前,應先確認在安全前提下的節省是否成立。託管執行適合更大規模評估,不是使用這個基準的前提。

開發整合

相容 OpenAI 用戶端。

CacheSafety Bench 依然開源且與端點無關。NextModel 只是可選的託管端點與生產接入層。

OpenAI 相容範例
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

常見問題

常見問題

这是语义缓存吗?

不是。CacheSafety Bench 是一个用于安全复用 LLM 响应的基准,而不是在默认情况下建议启用语义缓存。

我必须使用 NextModel 吗?

不用。本地基准运行是开源且与端点无关的。NextModel 的托管运行是可选的。

什么是坏命中?

坏命中是指旧答案不应该被返回给新请求,因为它违反了事实、约束、时间、格式或用户预期。

我可以本地运行吗?

可以。这个基准会优先设计成在本地运行,使用你控制的样例、合成或私有数据集。

我需要什么数据?

你需要包含 old_request、old_answer、new_request 的请求对或回放对,最好再加一条新的参考答案。

这怎么帮助降低 API 成本?

它会先衡量复用是否安全,再只基于安全命中估算节省。

它适合医疗、法律或金融场景吗?

这里不会默认把这些领域视为安全复用目标。高风险复用应继续保持保守。

現在開始

在生產前先確認 LLM 回應重用是否足夠安全。

先在本地執行開放基準;只有在你需要更大規模回放與可分享報告時,再使用可選的託管工作流。