Conte apenas o reuso que o usuario nao percebe.
CacheSafety Bench
Meça a reutilizacao segura de respostas LLM antes de ativar cache em producao.
Muitos benchmarks de cache olham apenas para hit rate. CacheSafety Bench tambem mede Safe Hit Rate, Bad Hit Rate e economia de custo de API.
Ler docsProblema
So hit rate nao basta.
Semantic caching pode economizar dinheiro, mas um unico bad hit ja faz o modelo parecer errado. CacheSafety Bench mede se o reuso e seguro, nao apenas se dois prompts parecem similares.
Metricas principais
Meça a seguranca antes de medir a escala.
A linha dura de seguranca antes do cache em producao.
Conte a economia somente depois de validar o reuso seguro.
Mede se prompts parecidos ainda quebram o reuso.
Como funciona
Tres passos antes de confiar no cache.
Passe old_request, old_answer e new_request por um benchmark runner conservador.
Verifique se a resposta antiga realmente atende ao novo request sem violacoes ocultas.
Exporte um relatorio e uma recomendacao prudente de politica antes do rollout em producao.
Previa do relatorio
Exemplo de relatorio estatico
Uma boa politica de cache economiza dinheiro sem que o usuario perceba que a resposta foi reutilizada.
Run hosted
O benchmark local e gratis e open source. Runs hosted sao opcionais.
O benchmark hosted da NextModel usa creditos para rodar replays maiores, avaliar modelos e gerar relatorios compartilhaveis. Os runs locais continuam open source e endpoint-neutral.
A economia segura deve ser medida antes do cache em producao. Os runs hosted servem para avaliacoes maiores, nao como requisito do benchmark.
Integracao para developers
Funciona com clientes compativeis com OpenAI.
CacheSafety Bench continua open source e endpoint-neutral. NextModel e apenas um endpoint hosted opcional e gateway de producao.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1FAQ
Perguntas frequentes
Isto e um semantic cache?
Nao. CacheSafety Bench e um benchmark para medir o reuso seguro de respostas LLM, nao uma promessa de que o semantic cache deve ser ativado por padrao.
Preciso usar o NextModel?
Nao. Os runs locais do benchmark sao open source e endpoint-neutral. Os runs hosted no NextModel sao opcionais.
O que e um bad hit?
Bad hit e uma resposta reutilizada que nao deveria ter sido devolvida para o novo request porque viola fatos, restricoes, tempo, formato ou expectativa do usuario.
Posso rodar isso localmente?
Sim. O benchmark foi desenhado para rodar primeiro em ambiente local com datasets toy, sinteticos ou privados sob seu controle.
Comece agora
Meça o reuso seguro de respostas LLM antes da producao.
Rode primeiro o benchmark aberto localmente e use o workflow hosted so quando precisar de replay jobs maiores e relatorios compartilhaveis.