Bad Hit Rate: すべての LLM キャッシュが見るべき指標

公開日 2026-05-27 · NextModel Research

要点

LLM 応答の再利用を評価するとき、なぜ Safe Hit Rate と Bad Hit Rate が生のヒット率より重要なのか。このガイドは、モデル品質、コスト、ルーティング方針、本番公開リスクを比較するプロダクト/プラットフォームチーム向けに書かれています。

ヒット率だけでは誤解を招く

キャッシュは見た目には効率的でも、モデルの回答が正しいとは限りません。Bad Hit Rate は、古い事実、崩れた書式、数値の誤り、意味的な罠など、ユーザーが実際に気づく失敗を捉えます。

代わりに何を測るか

本番トラフィックを再利用層に流す前に、Safe Hit Rate、Bad Hit Rate、1K リクエストあたりの節約コスト、Semantic Trap Failure Rate を測定すべきです。

Safe Hit Rate は、ユーザーに気づかれない再利用を測ります。
Bad Hit Rate は、安全ラインを測ります。
Semantic Trap は、似たプロンプトでも新しい回答が必要かを見分けます。

CacheSafety Bench の役割

CacheSafety Bench は、まずローカルで安全な LLM 応答再利用を測るためのオープンベンチマークです。大規模な再実行ジョブには NextModel のホスト評価を使えます。