O que e CacheSafety Bench?

CacheSafety Bench e um benchmark para medir reutilizacao segura de respostas LLM. Compara Safe Hit Rate, Bad Hit Rate, falhas de armadilhas semanticas e custo poupado antes de ativar cache.

CacheSafety Bench e um cache semantico?

Nao. CacheSafety Bench e um workflow de medicao, nao uma recomendacao para ativar cache semantico por defeito.

Benchmark de cache

CacheSafety Bench

Meça a reutilizacao segura de respostas LLM antes de ativar cache em producao.

Executar benchmark hosted Ver GitHub Estimar economia

Muitos benchmarks de cache olham apenas para hit rate. CacheSafety Bench tambem mede Safe Hit Rate, Bad Hit Rate e economia de custo de API.

Ler docs

Problema

So hit rate nao basta.

Semantic caching pode economizar dinheiro, mas um unico bad hit ja faz o modelo parecer errado. CacheSafety Bench mede se o reuso e seguro, nao apenas se dois prompts parecem similares.

Metricas principais

Meça a seguranca antes de medir a escala.

SegurancaSafe Hit Rate

Conte apenas o reuso que o usuario nao percebe.

GuardrailBad Hit Rate

A linha dura de seguranca antes do cache em producao.

$/K

EconomiaCost Saved / 1K Requests

Conte a economia somente depois de validar o reuso seguro.

Teste de armadilhaSemantic Trap Failure Rate

Mede se prompts parecidos ainda quebram o reuso.

Como funciona

Tres passos antes de confiar no cache.

ReplayReproduzir pares de request

Passe old_request, old_answer e new_request por um benchmark runner conservador.

JulgarJulgar reuso seguro

Verifique se a resposta antiga realmente atende ao novo request sem violacoes ocultas.

PoliticaEstimar economia segura

Exporte um relatorio e uma recomendacao prudente de politica antes do rollout em producao.

Previa do relatorio

Exemplo de relatorio estatico

Uma boa politica de cache economiza dinheiro sem que o usuario perceba que a resposta foi reutilizada.

Total de pares2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

Politica recomendadaExact + Canonical

Semantic cacheNot recommended yet

Estimar economia Ler docs

Run hosted

O benchmark local e gratis e open source. Runs hosted sao opcionais.

O benchmark hosted da NextModel usa creditos para rodar replays maiores, avaliar modelos e gerar relatorios compartilhaveis. Os runs locais continuam open source e endpoint-neutral.

A economia segura deve ser medida antes do cache em producao. Os runs hosted servem para avaliacoes maiores, nao como requisito do benchmark.

Comece com creditos gratis

Integracao para developers

Funciona com clientes compativeis com OpenAI.

CacheSafety Bench continua open source e endpoint-neutral. NextModel e apenas um endpoint hosted opcional e gateway de producao.

Exemplo compativel com OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Perguntas frequentes

Isto e um semantic cache?

Nao. CacheSafety Bench e um benchmark para medir o reuso seguro de respostas LLM, nao uma promessa de que o semantic cache deve ser ativado por padrao.

Preciso usar o NextModel?

Nao. Os runs locais do benchmark sao open source e endpoint-neutral. Os runs hosted no NextModel sao opcionais.

O que e um bad hit?

Bad hit e uma resposta reutilizada que nao deveria ter sido devolvida para o novo request porque viola fatos, restricoes, tempo, formato ou expectativa do usuario.

Posso rodar isso localmente?

Sim. O benchmark foi desenhado para rodar primeiro em ambiente local com datasets toy, sinteticos ou privados sob seu controle.

Comece agora

Meça o reuso seguro de respostas LLM antes da producao.

Rode primeiro o benchmark aberto localmente e use o workflow hosted so quando precisar de replay jobs maiores e relatorios compartilhaveis.

Executar benchmark hosted Ler docs