Conta solo il riuso che l'utente non noterebbe.
CacheSafety Bench
Misura il riutilizzo sicuro delle risposte LLM prima di attivare la cache in produzione.
Molti benchmark di cache ottimizzano solo la hit rate. CacheSafety Bench misura anche Safe Hit Rate, Bad Hit Rate e risparmio di costo API.
Leggi la documentazioneProblema
La hit rate da sola non basta.
Il semantic caching puo ridurre il costo, ma basta un solo bad hit per far sembrare il modello sbagliato. CacheSafety Bench misura se il riuso e sicuro, non solo se due prompt sembrano simili.
Metriche chiave
Misura la sicurezza prima di misurare la scala.
E questa la linea dura di sicurezza prima della cache in produzione.
Conta il risparmio solo dopo aver validato il riuso sicuro.
Misura se prompt simili continuano a rompere il riuso.
Come funziona
Tre passaggi prima di fidarti della cache.
Fai passare old_request, old_answer e new_request in un benchmark runner conservativo.
Controlla che la vecchia risposta soddisfi davvero il nuovo request senza violazioni nascoste.
Esporta un report e una raccomandazione prudente di policy prima del rollout in produzione.
Anteprima del report
Esempio di report statico
Una buona policy di cache fa risparmiare senza far percepire all'utente che la risposta e stata riutilizzata.
Run hosted
Il benchmark locale e gratuito e open source. I run hosted sono opzionali.
Il benchmark hosted di NextModel usa crediti per replay piu grandi, judge models e report condivisibili. I run locali restano open source ed endpoint-neutral.
Il risparmio sicuro va misurato prima di attivare la cache in produzione. I run hosted servono per valutazioni piu grandi, non sono un requisito del benchmark.
Integrazione developer
Funziona con client compatibili con OpenAI.
CacheSafety Bench resta open source ed endpoint-neutral. NextModel e solo un hosted endpoint opzionale e un production gateway.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1FAQ
Domande frequenti
E questo un semantic cache?
No. CacheSafety Bench e un benchmark per misurare il riuso sicuro delle risposte LLM, non la promessa che il semantic cache debba essere attivato di default.
Devo usare NextModel?
No. I run locali del benchmark sono open source ed endpoint-neutral. I run hosted su NextModel sono opzionali.
Che cos'e un bad hit?
Un bad hit e una risposta riutilizzata che non avrebbe dovuto essere restituita per il nuovo request perche viola fatti, vincoli, timing, formato o aspettative dell'utente.
Posso eseguirlo in locale?
Si. Il benchmark e progettato per essere eseguito prima in locale con dataset toy, sintetici o privati sotto il tuo controllo.
Inizia ora
Misura il riuso sicuro delle risposte LLM prima della produzione.
Esegui prima il benchmark aperto in locale, poi usa il workflow hosted solo quando ti servono replay jobs piu grandi e report condivisibili.