Ne compte que les reponses reutilisees sans impact visible pour l'utilisateur.
CacheSafety Bench
Mesurez la reutilisation sure des reponses LLM avant d'activer le cache en production.
La plupart des benchmarks de cache optimisent le hit rate. CacheSafety Bench mesure aussi le Safe Hit Rate, le Bad Hit Rate et les economies API.
Lire la documentationProbleme
Le hit rate ne suffit pas.
Le cache semantique peut reduire les couts, mais un seul bad hit suffit a fragiliser la confiance. CacheSafety Bench verifie si la reutilisation est sure, pas seulement si deux prompts se ressemblent.
Metriques cles
Mesurez la surete avant de mesurer l'echelle.
La ligne de securite a ne pas franchir avant le cache en production.
Les economies ne sont comptees qu'apres validation du reuse sur.
Mesure si des prompts seulement semblables cassent encore la reutilisation.
Fonctionnement
Trois etapes avant de faire confiance au cache.
Faites passer old_request, old_answer et new_request dans un runner de benchmark conservateur.
Controlez que l'ancienne reponse satisfait vraiment la nouvelle demande sans violation cachee.
Exportez un rapport et une recommandation prudente avant la mise en production.
Apercu du rapport
Exemple de rapport statique
Une bonne politique de cache economise sans que l'utilisateur remarque la reutilisation des reponses.
Execution hebergee
Le benchmark local est gratuit et open source. L'hebergement reste optionnel.
Le benchmark heberge par NextModel consomme des credits pour executer des replays plus larges, evaluer les modeles et produire des rapports partageables. Les executions locales restent open source et neutres vis-a-vis des endpoints.
Les economies doivent d'abord etre validees dans des conditions sures avant le cache en production. L'hebergement sert aux evaluations plus larges, pas comme prerequis du benchmark.
Integration dev
Compatible avec les clients OpenAI.
CacheSafety Bench reste open source et neutre cote endpoint. NextModel n'est qu'un endpoint heberge optionnel et une couche de passage en production.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1FAQ
Questions frequentes
Est-ce un cache semantique ?
Non. CacheSafety Bench mesure la reutilisation sure des reponses LLM ; il ne promet pas qu'un cache semantique doive etre active.
Dois-je utiliser NextModel ?
Non. Les executions locales sont open source et neutres vis-a-vis des endpoints. L'execution hebergee NextModel reste optionnelle.
Qu'est-ce qu'un mauvais hit ?
Un mauvais hit est une reponse reutilisee qui n'aurait pas du etre renvoyee a la nouvelle demande car elle viole les faits, les contraintes, le timing, le format ou l'attente utilisateur.
Puis-je l'executer en local ?
Oui. Le benchmark est pense pour tourner d'abord en local avec des jeux de donnees jouets, synthetiques ou prives que vous controlez.
Commencer
Mesurez la reutilisation sure des reponses LLM avant la production.
Commencez par le benchmark ouvert en local, puis utilisez le workflow heberge uniquement si vous avez besoin de replays plus larges et de rapports partageables.