Publicado em 2026-05-27 · NextModel Research
Resposta direta
Por que Safe Hit Rate e Bad Hit Rate importam mais do que a hit rate bruta ao avaliar o reuso de respostas de LLM. Este guia foi escrito para equipas de produto e plataforma que comparam qualidade de modelos, custo, política de routing e risco de rollout.
Por que a hit rate engana
Um cache pode parecer eficiente no papel e ainda assim fazer o modelo parecer errado. O Bad Hit Rate captura as falhas que os usuários realmente notam: fatos desatualizados, formatação quebrada, quantidades erradas e armadilhas semânticas.
O que medir no lugar
Os times deveriam medir Safe Hit Rate, Bad Hit Rate, Custo economizado / 1K solicitações e Taxa de falha por armadilha semântica antes de passar o tráfego de produção por uma camada de reuso.
- Safe Hit Rate mede o reuso invisível.
- Bad Hit Rate mede a linha de segurança.
- As armadilhas semânticas mostram se instruções parecidas ainda precisam de uma resposta nova.
Como o CacheSafety Bench entra nisso
O CacheSafety Bench é um banco de testes aberto para medir primeiro, localmente, o reuso seguro de respostas de LLM, com avaliação hospedada opcional no NextModel para tarefas grandes de repetição.