发布于 2026-05-27 · NextModel Research
为什么单看命中率会误导
缓存看起来很高效,并不代表模型对用户来说是正确的。Bad Hit Rate 抓住的是用户真正能感知到的问题:过时事实、格式损坏、数量错误和语义陷阱。
应该测什么
团队在把生产流量切到复用层之前,至少应测 Safe Hit Rate、Bad Hit Rate、每千请求节省成本和语义陷阱失败率。
- Safe Hit Rate 衡量用户无感知的复用。
- Bad Hit Rate 衡量安全红线。
- 语义陷阱揭示相似提示词是否仍需要新答案。
CacheSafety Bench 的位置
CacheSafety Bench 是一个开放基准,可先在本地评估 LLM 安全复用;需要更大规模回放任务时,再选用 NextModel 托管能力。