Mi az a CacheSafety Bench?

A CacheSafety Bench egy benchmark az LLM-valaszok biztonsagos ujrahasznositasanak meresere. Osszeveti a Safe Hit Rate, Bad Hit Rate, semantic trap failure rate es a megtakaritott koltseg mutatoit.

A CacheSafety Bench semantic cache?

Nem. A CacheSafety Bench egy meresi workflow, nem annak allitasa, hogy a semantic cachinget alapertelmezetten be kell kapcsolni.

Cache benchmark

CacheSafety Bench

Merje a valaszok biztonsagos ujrafelhasznalasat, mielott elesiteni a gyorsitarazast.

Hosted benchmark inditasa GitHub megnyitasa Megtakaritas becslese

A legtobb cache benchmark csak a hit rate-re optimalizal. A CacheSafety Bench a Safe Hit Rate-et, a Bad Hit Rate-et es az API-koltseg megtakaritast is meri.

Docs olvasasa

Problema

A hit rate onmagaban nem eleg.

A semantic caching csokkentheti a koltseget, de mar egyetlen bad hit is megingathatja a bizalmat. A CacheSafety Bench azt meri, hogy az ujrafelhasznalas biztonsagos-e, nem csak azt, hogy ket prompt hasonlonak tunik-e.

Kulcsmetrikak

Merje a biztonsagot, mielott a skalat meri.

BiztonsagSafe Hit Rate

Csak azt az ujrafelhasznalast merje, amit a felhasznalo nem vesz eszre.

GuardrailBad Hit Rate

Ez a kemeny biztonsagi hatar a production cache elott.

$/K

GazdasagossagCost Saved / 1K Requests

A megtakaritast csak a biztonsagos ujrafelhasznalas igazolasa utan szamolja.

CsapdatesztSemantic Trap Failure Rate

Megmutatja, hogy a hasonlo promptok tovabbra is megtoreshez vezetnek-e.

Hogyan mukodik

Harom lepes, mielott megbizna a cache-ben.

ReplayJatsza ujra a request parokat

Futtassa az old_request, old_answer es new_request elemeket egy konzervativ benchmark runneren.

ErtekelniErtekelje a biztonsagos ujrafelhasznalast

Ellenorizze, hogy a regi valasz rejtett serules nelkul tenyleg lefedi-e az uj requestet.

PolitikaBecsulje meg a biztonsagos megtakaritast

Exportaljon riportot es ovatos policy-ajanlast a production rollout elott.

Jelentes elo-nezet

Statikus mintajelentes

A jo cache politika ugy takarit meg koltseget, hogy a felhasznalo nem erzi a valaszok ujrafelhasznalasat.

Parok osszesen2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

Ajanlott politikaExact + Canonical

Semantic cacheNot recommended yet

Megtakaritas becslese Docs olvasasa

Hosted run

A helyi benchmark ingyenes es open source. A hosted runok opcionálisak.

A NextModel hosted benchmark kreditet hasznal nagyobb replayekhez, judge modelshez es megoszthato riportokhoz. A helyi runok tovabbra is open source es endpoint-neutral jelleguek.

A biztonsagos megtakaritast a production cache elott kell merni. A hosted runok nagyobb ertekelesekre valok, nem a benchmark hasznalatanak feltetelei.

Kezdje ingyenes kreditekkel

Developer integracio

Mukodik OpenAI-kompatibilis kliensekkel.

A CacheSafety Bench tovabbra is open source es endpoint-neutral. A NextModel csupan valaszthato hosted endpoint es production gateway.

OpenAI-kompatibilis pelda

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Gyakori kerdesek

Ez semantic cache?

Nem. A CacheSafety Bench egy benchmark a biztonsagos LLM-valasz ujrafelhasznalas meresere, nem pedig igeret arra, hogy a semantic cache-t alapertelmezetten be kell kapcsolni.

Kell hasznalnom a NextModelt?

Nem. A helyi benchmark futasok open source es endpoint-neutral jelleguek. A NextModel hosted futasai opcionálisak.

Mi az a bad hit?

A bad hit olyan ujrafelhasznalt valasz, amelyet nem lett volna szabad visszaadni az uj requestre, mert serti a tenyeket, korlatokat, idozitest, formatumot vagy a felhasznaloi elvarast.

Futtathatom helyben?

Igen. A benchmark ugy lett tervezve, hogy eloszor helyben fusson toy, szintetikus vagy privat datasetekkel, amelyeket on felugyel.

Kezdje most

Merje a valaszok biztonsagos ujrafelhasznalasat produkcio elott.

Eloszor futtassa nyilt benchmarkkent helyben, es a hosted workflowt csak akkor hasznalja, ha nagyobb replay jobokra es megoszthato riportokra van szuksege.

Hosted benchmark inditasa Docs olvasasa