Loading...Working on your request
Benchmark cache

CacheSafety Bench

Ukur penggunaan ulang respons LLM yang aman sebelum cache produksi diaktifkan.

Banyak benchmark cache hanya mengoptimalkan hit rate. CacheSafety Bench juga mengukur Safe Hit Rate, Bad Hit Rate, dan penghematan biaya API.

Baca docs

Masalah

Hit rate saja tidak cukup.

Semantic caching memang bisa menghemat biaya, tetapi satu bad hit saja bisa membuat model terlihat salah. CacheSafety Bench mengukur apakah reuse aman, bukan hanya apakah dua prompt tampak mirip.

Metrik inti

Ukur keamanan sebelum mengukur skala.

SH
KeamananSafe Hit Rate

Hanya hitung reuse yang tidak akan disadari pengguna.

BH
GuardrailBad Hit Rate

Inilah batas aman yang keras sebelum cache dipakai di produksi.

$/K
EkonomiCost Saved / 1K Requests

Penghematan baru dihitung setelah reuse aman tervalidasi.

TR
Uji jebakanSemantic Trap Failure Rate

Ukur apakah prompt yang mirip tetap merusak reuse.

Cara kerja

Tiga langkah sebelum Anda mempercayai cache.

P1
ReplayPutar ulang pasangan request

Jalankan old_request, old_answer, dan new_request lewat benchmark runner yang konservatif.

P2
NilaiNilai reuse yang aman

Periksa apakah jawaban lama benar-benar memenuhi request baru tanpa pelanggaran tersembunyi.

P3
KebijakanPerkirakan penghematan aman

Ekspor laporan dan rekomendasi kebijakan yang hati-hati sebelum rollout produksi.

Pratinjau laporan

Contoh laporan statis

Kebijakan cache yang baik menghemat biaya tanpa membuat pengguna sadar bahwa jawaban sedang digunakan ulang.

Total pasangan2,000
Safe Hit Rate18.4%
Bad Hit Rate0.0%
Cost Saved / 1K Requests$0.42
Kebijakan yang disarankanExact + Canonical
Semantic cacheNot recommended yet

Run hosted

Benchmark lokal gratis dan open source. Run hosted bersifat opsional.

Benchmark hosted NextModel memakai kredit untuk menjalankan replay yang lebih besar, menilai model, dan membuat laporan yang mudah dibagikan. Run lokal tetap open source dan endpoint-neutral.

Penghematan aman sebaiknya diukur sebelum cache dipakai di produksi. Run hosted cocok untuk evaluasi yang lebih besar, bukan syarat memakai benchmark ini.

Integrasi developer

Bekerja dengan klien yang kompatibel dengan OpenAI.

CacheSafety Bench tetap open source dan endpoint-neutral. NextModel hanyalah endpoint hosted opsional dan gateway produksi.

Contoh kompatibel OpenAI
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Pertanyaan umum

Apakah ini semantic cache?

Tidak. CacheSafety Bench adalah benchmark untuk mengukur reuse respons LLM yang aman, bukan janji bahwa semantic cache harus dinyalakan secara default.

Apakah saya harus memakai NextModel?

Tidak. Run benchmark lokal bersifat open source dan endpoint-neutral. Run hosted di NextModel bersifat opsional.

Apa itu bad hit?

Bad hit adalah jawaban reuse yang seharusnya tidak dikembalikan untuk request baru karena melanggar fakta, batasan, waktu, format, atau ekspektasi pengguna.

Bisakah saya menjalankannya secara lokal?

Ya. Benchmark ini dirancang untuk dijalankan secara lokal lebih dulu dengan dataset toy, sintetis, atau privat yang Anda kendalikan.

Mulai sekarang

Ukur penggunaan ulang respons LLM yang aman sebelum produksi.

Jalankan benchmark terbuka secara lokal lebih dulu, lalu pakai workflow hosted hanya saat Anda butuh replay yang lebih besar dan laporan yang bisa dibagikan.