发布于 2026-05-27 · NextModel Research

为什么单看命中率会误导

缓存看起来很高效,并不代表模型对用户来说是正确的。Bad Hit Rate 抓住的是用户真正能感知到的问题:过时事实、格式损坏、数量错误和语义陷阱。

应该测什么

团队在把生产流量切到复用层之前,至少应测 Safe Hit Rate、Bad Hit Rate、每千请求节省成本和语义陷阱失败率。

  • Safe Hit Rate 衡量用户无感知的复用。
  • Bad Hit Rate 衡量安全红线。
  • 语义陷阱揭示相似提示词是否仍需要新答案。

CacheSafety Bench 的位置

CacheSafety Bench 是一个开放基准,可先在本地评估 LLM 安全复用;需要更大规模回放任务时,再选用 NextModel 托管能力。