Apa itu CacheSafety Bench?

CacheSafety Bench adalah benchmark untuk mengukur penggunaan ulang respons LLM yang aman. Ia membandingkan Safe Hit Rate, Bad Hit Rate, tingkat kegagalan semantic trap, dan biaya yang dihemat.

Apakah CacheSafety Bench adalah semantic cache?

Tidak. CacheSafety Bench adalah workflow pengukuran, bukan klaim bahwa semantic caching harus aktif secara default.

Benchmark cache

CacheSafety Bench

Ukur penggunaan ulang respons LLM yang aman sebelum cache produksi diaktifkan.

Jalankan benchmark hosted Lihat GitHub Perkirakan penghematan

Banyak benchmark cache hanya mengoptimalkan hit rate. CacheSafety Bench juga mengukur Safe Hit Rate, Bad Hit Rate, dan penghematan biaya API.

Baca docs

Masalah

Hit rate saja tidak cukup.

Semantic caching memang bisa menghemat biaya, tetapi satu bad hit saja bisa membuat model terlihat salah. CacheSafety Bench mengukur apakah reuse aman, bukan hanya apakah dua prompt tampak mirip.

Metrik inti

Ukur keamanan sebelum mengukur skala.

KeamananSafe Hit Rate

Hanya hitung reuse yang tidak akan disadari pengguna.

GuardrailBad Hit Rate

Inilah batas aman yang keras sebelum cache dipakai di produksi.

$/K

EkonomiCost Saved / 1K Requests

Penghematan baru dihitung setelah reuse aman tervalidasi.

Uji jebakanSemantic Trap Failure Rate

Ukur apakah prompt yang mirip tetap merusak reuse.

Cara kerja

Tiga langkah sebelum Anda mempercayai cache.

ReplayPutar ulang pasangan request

Jalankan old_request, old_answer, dan new_request lewat benchmark runner yang konservatif.

NilaiNilai reuse yang aman

Periksa apakah jawaban lama benar-benar memenuhi request baru tanpa pelanggaran tersembunyi.

KebijakanPerkirakan penghematan aman

Ekspor laporan dan rekomendasi kebijakan yang hati-hati sebelum rollout produksi.

Pratinjau laporan

Contoh laporan statis

Kebijakan cache yang baik menghemat biaya tanpa membuat pengguna sadar bahwa jawaban sedang digunakan ulang.

Total pasangan2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

Kebijakan yang disarankanExact + Canonical

Semantic cacheNot recommended yet

Perkirakan penghematan Baca docs

Run hosted

Benchmark lokal gratis dan open source. Run hosted bersifat opsional.

Benchmark hosted NextModel memakai kredit untuk menjalankan replay yang lebih besar, menilai model, dan membuat laporan yang mudah dibagikan. Run lokal tetap open source dan endpoint-neutral.

Penghematan aman sebaiknya diukur sebelum cache dipakai di produksi. Run hosted cocok untuk evaluasi yang lebih besar, bukan syarat memakai benchmark ini.

Mulai dengan kredit gratis

Integrasi developer

Bekerja dengan klien yang kompatibel dengan OpenAI.

CacheSafety Bench tetap open source dan endpoint-neutral. NextModel hanyalah endpoint hosted opsional dan gateway produksi.

Contoh kompatibel OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Pertanyaan umum

Apakah ini semantic cache?

Tidak. CacheSafety Bench adalah benchmark untuk mengukur reuse respons LLM yang aman, bukan janji bahwa semantic cache harus dinyalakan secara default.

Apakah saya harus memakai NextModel?

Tidak. Run benchmark lokal bersifat open source dan endpoint-neutral. Run hosted di NextModel bersifat opsional.

Apa itu bad hit?

Bad hit adalah jawaban reuse yang seharusnya tidak dikembalikan untuk request baru karena melanggar fakta, batasan, waktu, format, atau ekspektasi pengguna.

Bisakah saya menjalankannya secara lokal?

Ya. Benchmark ini dirancang untuk dijalankan secara lokal lebih dulu dengan dataset toy, sintetis, atau privat yang Anda kendalikan.

Mulai sekarang

Ukur penggunaan ulang respons LLM yang aman sebelum produksi.

Jalankan benchmark terbuka secara lokal lebih dulu, lalu pakai workflow hosted hanya saat Anda butuh replay yang lebih besar dan laporan yang bisa dibagikan.

Jalankan benchmark hosted Baca docs