公開日 2026-05-27 · NextModel Research

要点

LLM 応答の再利用を評価するとき、なぜ Safe Hit Rate と Bad Hit Rate が生のヒット率より重要なのか。 このガイドは、モデル品質、コスト、ルーティング方針、本番公開リスクを比較するプロダクト/プラットフォームチーム向けに書かれています。

ヒット率だけでは誤解を招く

キャッシュは見た目には効率的でも、モデルの回答が正しいとは限りません。Bad Hit Rate は、古い事実、崩れた書式、数値の誤り、意味的な罠など、ユーザーが実際に気づく失敗を捉えます。

代わりに何を測るか

本番トラフィックを再利用層に流す前に、Safe Hit Rate、Bad Hit Rate、1K リクエストあたりの節約コスト、Semantic Trap Failure Rate を測定すべきです。

  • Safe Hit Rate は、ユーザーに気づかれない再利用を測ります。
  • Bad Hit Rate は、安全ラインを測ります。
  • Semantic Trap は、似たプロンプトでも新しい回答が必要かを見分けます。

CacheSafety Bench の役割

CacheSafety Bench は、まずローカルで安全な LLM 応答再利用を測るためのオープンベンチマークです。大規模な再実行ジョブには NextModel のホスト評価を使えます。