Cuenta solo el reuso que el usuario no notaria.
CacheSafety Bench
Mide la reutilizacion segura de respuestas LLM antes de activar cache en produccion.
Muchos benchmarks de cache solo optimizan el hit rate. CacheSafety Bench tambien mide Safe Hit Rate, Bad Hit Rate y ahorro de costo API.
Leer docsProblema
El hit rate por si solo no basta.
El semantic caching puede ahorrar dinero, pero un solo bad hit puede hacer que el modelo parezca equivocado. CacheSafety Bench mide si el reuso es seguro, no solo si dos prompts se parecen.
Metricas clave
Mide la seguridad antes de medir la escala.
La linea dura de seguridad antes del cache en produccion.
Cuenta el ahorro solo despues de validar el reuso seguro.
Mide si prompts parecidos siguen rompiendo el reuso.
Como funciona
Tres pasos antes de confiar en el cache.
Ejecuta old_request, old_answer y new_request en un benchmark runner conservador.
Comprueba si la respuesta vieja satisface de verdad el nuevo request sin violaciones ocultas.
Exporta un informe y una recomendacion prudente de politica antes del rollout a produccion.
Vista previa del informe
Informe estatico de ejemplo
Una buena politica de cache ahorra dinero sin que el usuario note que la respuesta fue reutilizada.
Run hosted
El benchmark local es gratis y open source. Los runs hosted son opcionales.
El benchmark hosted de NextModel usa creditos para ejecutar replays mas grandes, evaluar modelos y generar informes compartibles. Los runs locales siguen siendo open source y endpoint-neutral.
El ahorro seguro debe medirse antes de activar cache en produccion. Los runs hosted son para evaluaciones mas grandes, no un requisito para usar el benchmark.
Integracion para developers
Funciona con clientes compatibles con OpenAI.
CacheSafety Bench sigue siendo open source y endpoint-neutral. NextModel es solo un endpoint hosted opcional y un gateway de produccion.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1FAQ
Preguntas frecuentes
Es esto un semantic cache?
No. CacheSafety Bench es un benchmark para medir el reuso seguro de respuestas LLM, no una promesa de que el semantic cache deba activarse por defecto.
Necesito usar NextModel?
No. Los runs locales del benchmark son open source y endpoint-neutral. Los runs hosted en NextModel son opcionales.
Que es un bad hit?
Un bad hit es una respuesta reutilizada que no deberia haberse devuelto para el nuevo request porque viola hechos, restricciones, tiempo, formato o expectativas del usuario.
Puedo ejecutarlo localmente?
Si. El benchmark esta pensado para correr primero en local con datasets toy, sinteticos o privados que controles.
Empieza ahora
Mide el reuso seguro de respuestas LLM antes de produccion.
Ejecuta primero el benchmark abierto en local y usa el workflow hosted solo cuando necesites replay jobs mas grandes e informes compartibles.