Che cos'e CacheSafety Bench?

CacheSafety Bench e un benchmark per misurare il riutilizzo sicuro delle risposte LLM. Confronta Safe Hit Rate, Bad Hit Rate, tasso di errore dei semantic trap e costo risparmiato prima della cache.

CacheSafety Bench e una cache semantica?

No. CacheSafety Bench e un workflow di misurazione, non un'affermazione che la cache semantica debba essere attivata di default.

Benchmark cache

CacheSafety Bench

Misura il riutilizzo sicuro delle risposte LLM prima di attivare la cache in produzione.

Esegui benchmark hosted Vedi GitHub Stima il risparmio

Molti benchmark di cache ottimizzano solo la hit rate. CacheSafety Bench misura anche Safe Hit Rate, Bad Hit Rate e risparmio di costo API.

Leggi la documentazione

Problema

La hit rate da sola non basta.

Il semantic caching puo ridurre il costo, ma basta un solo bad hit per far sembrare il modello sbagliato. CacheSafety Bench misura se il riuso e sicuro, non solo se due prompt sembrano simili.

Metriche chiave

Misura la sicurezza prima di misurare la scala.

SicurezzaSafe Hit Rate

Conta solo il riuso che l'utente non noterebbe.

GuardrailBad Hit Rate

E questa la linea dura di sicurezza prima della cache in produzione.

$/K

EconomiaCost Saved / 1K Requests

Conta il risparmio solo dopo aver validato il riuso sicuro.

Test trappolaSemantic Trap Failure Rate

Misura se prompt simili continuano a rompere il riuso.

Come funziona

Tre passaggi prima di fidarti della cache.

ReplayRiproduci le coppie di request

Fai passare old_request, old_answer e new_request in un benchmark runner conservativo.

ValutaValuta il riuso sicuro

Controlla che la vecchia risposta soddisfi davvero il nuovo request senza violazioni nascoste.

PolicyStima il risparmio sicuro

Esporta un report e una raccomandazione prudente di policy prima del rollout in produzione.

Anteprima del report

Esempio di report statico

Una buona policy di cache fa risparmiare senza far percepire all'utente che la risposta e stata riutilizzata.

Totale coppie2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

Policy consigliataExact + Canonical

Semantic cacheNot recommended yet

Stima il risparmio Leggi la documentazione

Run hosted

Il benchmark locale e gratuito e open source. I run hosted sono opzionali.

Il benchmark hosted di NextModel usa crediti per replay piu grandi, judge models e report condivisibili. I run locali restano open source ed endpoint-neutral.

Il risparmio sicuro va misurato prima di attivare la cache in produzione. I run hosted servono per valutazioni piu grandi, non sono un requisito del benchmark.

Inizia con crediti gratuiti

Integrazione developer

Funziona con client compatibili con OpenAI.

CacheSafety Bench resta open source ed endpoint-neutral. NextModel e solo un hosted endpoint opzionale e un production gateway.

Esempio compatibile con OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Domande frequenti

E questo un semantic cache?

No. CacheSafety Bench e un benchmark per misurare il riuso sicuro delle risposte LLM, non la promessa che il semantic cache debba essere attivato di default.

Devo usare NextModel?

No. I run locali del benchmark sono open source ed endpoint-neutral. I run hosted su NextModel sono opzionali.

Che cos'e un bad hit?

Un bad hit e una risposta riutilizzata che non avrebbe dovuto essere restituita per il nuovo request perche viola fatti, vincoli, timing, formato o aspettative dell'utente.

Posso eseguirlo in locale?

Si. Il benchmark e progettato per essere eseguito prima in locale con dataset toy, sintetici o privati sotto il tuo controllo.

Inizia ora

Misura il riuso sicuro delle risposte LLM prima della produzione.

Esegui prima il benchmark aperto in locale, poi usa il workflow hosted solo quando ti servono replay jobs piu grandi e report condivisibili.

Esegui benchmark hosted Leggi la documentazione