Apakah itu CacheSafety Bench?

CacheSafety Bench ialah benchmark untuk mengukur penggunaan semula respons LLM yang selamat. Ia membandingkan Safe Hit Rate, Bad Hit Rate, kadar kegagalan perangkap semantik dan kos yang dijimatkan.

Adakah CacheSafety Bench cache semantik?

Tidak. CacheSafety Bench ialah aliran kerja pengukuran, bukan dakwaan bahawa cache semantik patut dihidupkan secara lalai.

Benchmark cache

CacheSafety Bench

Ukur penggunaan semula respons LLM yang selamat sebelum cache produksi diaktifkan.

Jalankan benchmark hosted Lihat GitHub Anggar penjimatan

Kebanyakan benchmark cache hanya mengoptimumkan hit rate. CacheSafety Bench turut mengukur Safe Hit Rate, Bad Hit Rate dan penjimatan kos API.

Baca docs

Masalah

Hit rate sahaja tidak mencukupi.

Semantic caching boleh menjimatkan kos, tetapi satu bad hit sudah cukup untuk membuat model kelihatan salah. CacheSafety Bench mengukur sama ada penggunaan semula itu selamat, bukan sekadar sama ada dua prompt kelihatan serupa.

Metrik teras

Ukur keselamatan sebelum mengukur skala.

KeselamatanSafe Hit Rate

Kira hanya penggunaan semula yang pengguna tidak sedari.

GuardrailBad Hit Rate

Inilah had keselamatan keras sebelum cache produksi.

$/K

EkonomiCost Saved / 1K Requests

Kira penjimatan hanya selepas penggunaan semula selamat disahkan.

Ujian perangkapSemantic Trap Failure Rate

Ukur sama ada prompt yang serupa masih memecahkan penggunaan semula.

Cara ia berfungsi

Tiga langkah sebelum anda mempercayai cache.

ReplayMain semula pasangan request

Jalankan old_request, old_answer dan new_request melalui benchmark runner yang konservatif.

NilaiNilai penggunaan semula yang selamat

Semak sama ada jawapan lama benar-benar memenuhi request baru tanpa pelanggaran tersembunyi.

PolisiAnggar penjimatan selamat

Eksport laporan dan cadangan polisi yang berhati-hati sebelum rollout produksi.

Pratonton laporan

Contoh laporan statik

Polisi cache yang baik menjimatkan kos tanpa membuat pengguna sedar jawapan itu digunakan semula.

Jumlah pasangan2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

Polisi disyorkanExact + Canonical

Semantic cacheNot recommended yet

Anggar penjimatan Baca docs

Run hosted

Benchmark tempatan adalah percuma dan open source. Hosted runs adalah pilihan.

Benchmark hosted NextModel menggunakan kredit untuk replay yang lebih besar, judge models dan laporan yang boleh dikongsi. Run tempatan kekal open source dan endpoint-neutral.

Penjimatan selamat perlu diukur sebelum cache produksi dihidupkan. Hosted runs sesuai untuk penilaian yang lebih besar, bukan syarat untuk menggunakan benchmark ini.

Mulakan dengan kredit percuma

Integrasi developer

Berfungsi dengan klien yang serasi dengan OpenAI.

CacheSafety Bench kekal open source dan endpoint-neutral. NextModel hanyalah hosted endpoint pilihan dan production gateway.

Contoh serasi OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Soalan lazim

Adakah ini semantic cache?

Tidak. CacheSafety Bench ialah benchmark untuk mengukur penggunaan semula respons LLM yang selamat, bukan janji bahawa semantic cache patut dihidupkan secara lalai.

Adakah saya perlu menggunakan NextModel?

Tidak. Run benchmark tempatan adalah open source dan endpoint-neutral. Hosted runs pada NextModel adalah pilihan.

Apakah itu bad hit?

Bad hit ialah jawapan guna semula yang tidak sepatutnya dipulangkan untuk request baharu kerana ia melanggar fakta, kekangan, timing, format atau jangkaan pengguna.

Bolehkah saya menjalankannya secara tempatan?

Ya. Benchmark ini direka untuk dijalankan dahulu secara tempatan menggunakan toy, synthetic atau private datasets yang anda kawal.

Mula sekarang

Ukur penggunaan semula respons LLM yang selamat sebelum produksi.

Jalankan benchmark terbuka secara tempatan dahulu, kemudian gunakan hosted workflow hanya apabila anda perlukan replay jobs yang lebih besar dan laporan yang boleh dikongsi.

Jalankan benchmark hosted Baca docs