Loading...Working on your request
キャッシュベンチマーク

CacheSafety Bench

本番キャッシュを有効にする前に、LLM 応答の再利用が安全かを評価します。

多くのキャッシュベンチマークはヒット率だけを見ます。CacheSafety Bench は Safe Hit Rate、Bad Hit Rate、API コスト削減を同時に測定します。

ドキュメントを読む

課題

ヒット率だけでは不十分です。

LLM のセマンティックキャッシュはコストを下げられますが、1 回の bad hit でも品質への信頼を損ないます。CacheSafety Bench は見た目の類似ではなく、安全な再利用かどうかを測ります。

主要指標

規模の前に、まず安全性を測定します。

SH
安全性安全ヒット率

ユーザーが再利用に気づかない回答だけを数えます。

BH
ガードレール誤ヒット率

本番キャッシュで絶対に超えてはいけない安全ラインです。

$/K
経済性1000リクエストあたりの節約額

安全な再利用だけを数えたあとに節約を見積もります。

TR
トラップ検証セマンティックトラップ失敗率

似た入力でも再利用を壊すかどうかを測ります。

仕組み

キャッシュを信頼する前の 3 ステップ。

P1
再生リクエストペアを再生

old_request、old_answer、new_request を保守的なベンチマークランナーに通します。

P2
判定安全な再利用かを判定

旧回答が新しい依頼を隠れた違反なく本当に満たすかを確認します。

P3
方針安全な節約を見積もる

本番展開の前にレポートと慎重なポリシー提案を出力します。

レポート例

静的レポート例

良いキャッシュ方針とは、節約しながらもユーザーに再利用を気づかせないことです。

サンプル総数2,000
安全ヒット率18.4%
誤ヒット率0.0%
1000リクエストあたりの節約額$0.42
推奨ポリシーExact + Canonical
セマンティックキャッシュNot recommended yet

ホスト実行

ローカルベンチマークは無料かつオープンソースです。ホスト実行は任意です。

NextModel のホスト型ベンチマークは、より大きなリプレイ、判定モデル、共有レポートの生成にクレジットを使います。ローカル実行は引き続きオープンソースでエンドポイント非依存です。

本番キャッシュの前に、安全な前提でどれだけ節約できるかを確認すべきです。ホスト実行は大規模評価向けであり、このベンチマークの前提条件ではありません。

開発統合

OpenAI 互換クライアントで動作します。

CacheSafety Bench は引き続きオープンソースでエンドポイント非依存です。NextModel は任意のホストエンドポイント兼プロダクションゲートウェイです。

OpenAI 互換サンプル
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

よくある質問

これは semantic cache ですか?

いいえ。CacheSafety Bench は LLM 応答の安全な再利用を測るベンチマークであり、semantic cache を有効にすべきだという約束ではありません。

NextModel を使う必要がありますか?

いいえ。ローカル実行はオープンソースでエンドポイント非依存です。NextModel のホスト実行は任意です。

bad hit とは何ですか?

bad hit とは、新しい依頼に返すべきではない再利用回答のことです。事実、制約、タイミング、形式、期待に反してしまう回答を指します。

ローカルで実行できますか?

はい。まずは手元で、管理できる toy データや合成データ、非公開データで実行する想定です。

今すぐ始める

本番前に、安全な LLM 応答再利用を測定しましょう。

まずはローカルでオープンベンチマークを実行し、大規模なリプレイや共有レポートが必要なときだけホスト型ワークフローを使います。