CacheSafety Bench 是什么？

CacheSafety Bench 是一个衡量 LLM 响应是否能安全复用的基准，会比较安全命中率、坏命中率、语义陷阱失败率和启用缓存前的成本节省。

CacheSafety Bench 是语义缓存吗？

不是。CacheSafety Bench 是评估工作流，不默认主张启用语义缓存。

缓存基准

CacheSafety Bench

在生产启用缓存前，先评估 LLM 响应复用是否安全。

运行托管基准查看 GitHub 估算成本节省

多数缓存基准只看命中率；CacheSafety Bench 会同时衡量安全命中率、坏命中率和 API 节省。

阅读文档

问题

只看命中率还不够。

LLM 语义缓存确实能省钱，但只要出现一次坏命中，用户就会开始怀疑模型是否可靠。CacheSafety Bench 衡量的是复用是否安全，而不只是两个提示词看起来是否相似。

核心指标

先衡量安全，再衡量规模。

安全性安全命中率

只复用用户不会察觉到的答案。

护栏坏命中率

生产缓存必须守住的硬性安全线。

$/K

经济性每千请求节省成本

只有在安全复用被计入后，节省才成立。

陷阱测试语义陷阱失败率

看起来相似的提示词是否仍会破坏复用。

工作方式

在信任缓存之前，先走三步。

回放回放请求对

把 old_request、old_answer 和 new_request 送入保守的基准运行器。

判定判断是否安全复用

检查旧答案是否真的满足新请求，而不会引入隐藏违规。

策略估算安全节省

在生产上线前导出报告和保守的策略建议。

报告预览

静态示例报告

有用的缓存策略，是在省钱的同时不让用户察觉到答案被复用了。

样本对总数2,000

安全命中率18.4%

坏命中率0.0%

每千请求节省成本$0.42

推荐策略精确匹配 + 规范化

语义缓存暂不推荐

估算成本节省阅读文档

托管运行

本地基准免费且开源。托管运行只是可选项。

NextModel 托管基准会消耗额度，用来运行更大规模的回放、判定模型并生成可分享的报告。本地基准仍然保持开源且与端点无关。

在把缓存放进生产之前，应先确认在安全前提下的节省是否成立。托管运行只适合更大规模的评估，不是使用这个基准的前提。

从免费额度开始

开发集成

兼容 OpenAI 客户端。

CacheSafety Bench 依然开源且与端点无关。NextModel 只是一个可选的托管端点和生产接入层。

OpenAI 兼容示例

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

常见问题

这是语义缓存吗？

不是。CacheSafety Bench 是一个用于安全复用 LLM 响应的基准，而不是在默认情况下建议启用语义缓存。

我必须使用 NextModel 吗？

不用。本地基准运行是开源且与端点无关的。NextModel 的托管运行是可选的。

什么是坏命中？

坏命中是指旧答案不应该被返回给新请求，因为它违反了事实、约束、时间、格式或用户预期。

我可以本地运行吗？

可以。这个基准会优先设计成在本地运行，使用你控制的样例、合成或私有数据集。

我需要什么数据？

你需要包含 old_request、old_answer、new_request 的请求对或回放对，最好再加一条新的参考答案。

这怎么帮助降低 API 成本？

它会先衡量复用是否安全，再只基于安全命中估算节省。

它适合医疗、法律或金融场景吗？

这里不会默认把这些领域视为安全复用目标。高风险复用应继续保持保守。

现在开始

在生产前先判断 LLM 响应复用是否足够安全。

先在本地运行开放基准；只有在需要更大规模回放和可分享报告时，再选择托管工作流。

运行托管基准阅读文档