ユーザーが再利用に気づかない回答だけを数えます。
CacheSafety Bench
本番キャッシュを有効にする前に、LLM 応答の再利用が安全かを評価します。
多くのキャッシュベンチマークはヒット率だけを見ます。CacheSafety Bench は Safe Hit Rate、Bad Hit Rate、API コスト削減を同時に測定します。
ドキュメントを読む課題
ヒット率だけでは不十分です。
LLM のセマンティックキャッシュはコストを下げられますが、1 回の bad hit でも品質への信頼を損ないます。CacheSafety Bench は見た目の類似ではなく、安全な再利用かどうかを測ります。
主要指標
規模の前に、まず安全性を測定します。
本番キャッシュで絶対に超えてはいけない安全ラインです。
安全な再利用だけを数えたあとに節約を見積もります。
似た入力でも再利用を壊すかどうかを測ります。
仕組み
キャッシュを信頼する前の 3 ステップ。
old_request、old_answer、new_request を保守的なベンチマークランナーに通します。
旧回答が新しい依頼を隠れた違反なく本当に満たすかを確認します。
本番展開の前にレポートと慎重なポリシー提案を出力します。
ホスト実行
ローカルベンチマークは無料かつオープンソースです。ホスト実行は任意です。
NextModel のホスト型ベンチマークは、より大きなリプレイ、判定モデル、共有レポートの生成にクレジットを使います。ローカル実行は引き続きオープンソースでエンドポイント非依存です。
本番キャッシュの前に、安全な前提でどれだけ節約できるかを確認すべきです。ホスト実行は大規模評価向けであり、このベンチマークの前提条件ではありません。
開発統合
OpenAI 互換クライアントで動作します。
CacheSafety Bench は引き続きオープンソースでエンドポイント非依存です。NextModel は任意のホストエンドポイント兼プロダクションゲートウェイです。
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1FAQ
よくある質問
これは semantic cache ですか?
いいえ。CacheSafety Bench は LLM 応答の安全な再利用を測るベンチマークであり、semantic cache を有効にすべきだという約束ではありません。
NextModel を使う必要がありますか?
いいえ。ローカル実行はオープンソースでエンドポイント非依存です。NextModel のホスト実行は任意です。
bad hit とは何ですか?
bad hit とは、新しい依頼に返すべきではない再利用回答のことです。事実、制約、タイミング、形式、期待に反してしまう回答を指します。
ローカルで実行できますか?
はい。まずは手元で、管理できる toy データや合成データ、非公開データで実行する想定です。
今すぐ始める
本番前に、安全な LLM 応答再利用を測定しましょう。
まずはローカルでオープンベンチマークを実行し、大規模なリプレイや共有レポートが必要なときだけホスト型ワークフローを使います。