Co je CacheSafety Bench?

CacheSafety Bench je benchmark pro mereni bezpecneho znovupouziti odpovedi LLM. Porovnava Safe Hit Rate, Bad Hit Rate, semantic trap failure rate a usetrene naklady.

Je CacheSafety Bench semantic cache?

Ne. CacheSafety Bench je workflow pro mereni, ne tvrzeni, ze by semantic caching mel byt ve vychozim stavu zapnuty.

Cache benchmark

CacheSafety Bench

Zmente bezpecne znovupouziti odpovedi LLM pred zapnutim cache v produkci.

Spustit hosted benchmark Zobrazit GitHub Odhadnout uspory

Vetsina cache benchmarku optimalizuje jen hit rate. CacheSafety Bench meri take Safe Hit Rate, Bad Hit Rate a uspory nakladu API.

Cist docs

Problem

Samotny hit rate nestaci.

Semanticke cachovani muze setrit naklady, ale jediny bad hit muze zpusobit, ze model bude pusobit chybne. CacheSafety Bench meri, zda je reuse bezpecny, ne jen to, zda dva prompty vypadaji podobne.

Klicove metriky

Nejdriv merte bezpecnost, potom skalu.

BezpecnostSafe Hit Rate

Pocitejte jen takove znovupouziti, ktere uzivatel nepozna.

GuardrailBad Hit Rate

To je tvrda bezpecnostni hranice pred cache v produkci.

$/K

EkonomikaCost Saved / 1K Requests

Uspory pocitejte az po potvrzeni bezpecneho znovupouziti.

Test pastiSemantic Trap Failure Rate

Ukazuje, zda podobne prompty stale rozbijeji znovupouziti.

Jak to funguje

Tri kroky predtim, nez budete cache verit.

ReplayPrehrajte dvojice requestu

Poslete old_request, old_answer a new_request pres konzervativni benchmark runner.

PosouditPosudte bezpecne znovupouziti

Overte, ze stara odpoved skutecne splnuje novy request bez skrytych poruseni.

PolitikaOdhadnete bezpecne uspory

Pred rolloutem do produkce exportujte report a opatrne doporuceni politiky.

Nahled reportu

Staticky ukazkovy report

Dobra cache politika setri penize, aniz by si uzivatel vsiml znovupouziti odpovedi.

Celkovy pocet paru2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

Doporucena politikaExact + Canonical

Semantic cacheNot recommended yet

Odhadnout uspory Cist docs

Hosted run

Lokalni benchmark je zdarma a open source. Hosted runy jsou volitelne.

Hosted benchmark od NextModelu vyuziva kredity pro vetsi replaye, judge models a sdilitelne reporty. Lokalni runy zustavaji open source a endpoint-neutral.

Bezpecne uspory je treba merit pred zapnutim cache v produkci. Hosted runy slouzi pro vetsi evaluace, ne jako podminka benchmarku.

Zacit s kredity zdarma

Developer integrace

Funguje s OpenAI-kompatibilnimi klienty.

CacheSafety Bench zustava open source a endpoint-neutral. NextModel je jen volitelny hosted endpoint a production gateway.

OpenAI-kompatibilni priklad

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Caste dotazy

Je to semantic cache?

Ne. CacheSafety Bench je benchmark pro mereni bezpecneho znovupouziti odpovedi LLM, ne slib, ze semantic caching ma byt zapnuty ve vychozim stavu.

Musim pouzivat NextModel?

Ne. Lokalni benchmark runy jsou open source a endpoint-neutral. Hosted runy na NextModelu jsou volitelne.

Co je bad hit?

Bad hit je znovupouzita odpoved, ktera nemela byt vracena pro novy request, protoze porusuje fakta, omezeni, nacasovani, format nebo ocekavani uzivatele.

Muzu to spustit lokalne?

Ano. Benchmark je navrzen tak, aby se nejprve spoustel lokalne na toy, syntetickych nebo soukromych datasetech, ktere mate pod kontrolou.

Zacnete ted

Zmente bezpecne znovupouziti odpovedi LLM pred produkci.

Nejdriv spustte otevreny benchmark lokalne a hosted workflow pouzijte jen tehdy, kdyz potrebujete vetsi replay jobs a sdilitelne reporty.

Spustit hosted benchmark Cist docs