Bad Hit Rate：LLM 缓存最该看的指标

发布于 2026-05-27 · NextModel Research

直接回答

在评估 LLM 响应复用时，为什么 Safe Hit Rate 和 Bad Hit Rate 比原始命中率更关键。这篇指南面向正在比较模型质量、成本、路由策略和生产上线风险的产品与平台团队。

为什么只看命中率会误导

缓存看起来很高效，并不代表对用户来说就是对的。Bad Hit Rate 抓住的是用户真正会察觉的问题：过时事实、格式损坏、数字出错和语义陷阱。

应该测什么

团队在把生产流量切到复用层之前，至少应测 Safe Hit Rate、Bad Hit Rate、每千请求节省成本和语义陷阱失败率。

Safe Hit Rate 衡量用户无感知的复用。
Bad Hit Rate 衡量安全红线。
语义陷阱用来判断相似提示词是否还需要新答案。

CacheSafety Bench 的位置

CacheSafety Bench 是一个开放基准，适合先在本地评估 LLM 安全复用；需要更大规模回放任务时，再用 NextModel 的托管能力。