Loading...Working on your request
Benchmark cache

CacheSafety Bench

Ukur penggunaan semula respons LLM yang selamat sebelum cache produksi diaktifkan.

Kebanyakan benchmark cache hanya mengoptimumkan hit rate. CacheSafety Bench turut mengukur Safe Hit Rate, Bad Hit Rate dan penjimatan kos API.

Baca docs

Masalah

Hit rate sahaja tidak mencukupi.

Semantic caching boleh menjimatkan kos, tetapi satu bad hit sudah cukup untuk membuat model kelihatan salah. CacheSafety Bench mengukur sama ada penggunaan semula itu selamat, bukan sekadar sama ada dua prompt kelihatan serupa.

Metrik teras

Ukur keselamatan sebelum mengukur skala.

SH
KeselamatanSafe Hit Rate

Kira hanya penggunaan semula yang pengguna tidak sedari.

BH
GuardrailBad Hit Rate

Inilah had keselamatan keras sebelum cache produksi.

$/K
EkonomiCost Saved / 1K Requests

Kira penjimatan hanya selepas penggunaan semula selamat disahkan.

TR
Ujian perangkapSemantic Trap Failure Rate

Ukur sama ada prompt yang serupa masih memecahkan penggunaan semula.

Cara ia berfungsi

Tiga langkah sebelum anda mempercayai cache.

P1
ReplayMain semula pasangan request

Jalankan old_request, old_answer dan new_request melalui benchmark runner yang konservatif.

P2
NilaiNilai penggunaan semula yang selamat

Semak sama ada jawapan lama benar-benar memenuhi request baru tanpa pelanggaran tersembunyi.

P3
PolisiAnggar penjimatan selamat

Eksport laporan dan cadangan polisi yang berhati-hati sebelum rollout produksi.

Pratonton laporan

Contoh laporan statik

Polisi cache yang baik menjimatkan kos tanpa membuat pengguna sedar jawapan itu digunakan semula.

Jumlah pasangan2,000
Safe Hit Rate18.4%
Bad Hit Rate0.0%
Cost Saved / 1K Requests$0.42
Polisi disyorkanExact + Canonical
Semantic cacheNot recommended yet

Run hosted

Benchmark tempatan adalah percuma dan open source. Hosted runs adalah pilihan.

Benchmark hosted NextModel menggunakan kredit untuk replay yang lebih besar, judge models dan laporan yang boleh dikongsi. Run tempatan kekal open source dan endpoint-neutral.

Penjimatan selamat perlu diukur sebelum cache produksi dihidupkan. Hosted runs sesuai untuk penilaian yang lebih besar, bukan syarat untuk menggunakan benchmark ini.

Integrasi developer

Berfungsi dengan klien yang serasi dengan OpenAI.

CacheSafety Bench kekal open source dan endpoint-neutral. NextModel hanyalah hosted endpoint pilihan dan production gateway.

Contoh serasi OpenAI
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Soalan lazim

Adakah ini semantic cache?

Tidak. CacheSafety Bench ialah benchmark untuk mengukur penggunaan semula respons LLM yang selamat, bukan janji bahawa semantic cache patut dihidupkan secara lalai.

Adakah saya perlu menggunakan NextModel?

Tidak. Run benchmark tempatan adalah open source dan endpoint-neutral. Hosted runs pada NextModel adalah pilihan.

Apakah itu bad hit?

Bad hit ialah jawapan guna semula yang tidak sepatutnya dipulangkan untuk request baharu kerana ia melanggar fakta, kekangan, timing, format atau jangkaan pengguna.

Bolehkah saya menjalankannya secara tempatan?

Ya. Benchmark ini direka untuk dijalankan dahulu secara tempatan menggunakan toy, synthetic atau private datasets yang anda kawal.

Mula sekarang

Ukur penggunaan semula respons LLM yang selamat sebelum produksi.

Jalankan benchmark terbuka secara tempatan dahulu, kemudian gunakan hosted workflow hanya apabila anda perlukan replay jobs yang lebih besar dan laporan yang boleh dikongsi.