Pocitejte jen takove znovupouziti, ktere uzivatel nepozna.
CacheSafety Bench
Zmente bezpecne znovupouziti odpovedi LLM pred zapnutim cache v produkci.
Vetsina cache benchmarku optimalizuje jen hit rate. CacheSafety Bench meri take Safe Hit Rate, Bad Hit Rate a uspory nakladu API.
Cist docsProblem
Samotny hit rate nestaci.
Semanticke cachovani muze setrit naklady, ale jediny bad hit muze zpusobit, ze model bude pusobit chybne. CacheSafety Bench meri, zda je reuse bezpecny, ne jen to, zda dva prompty vypadaji podobne.
Klicove metriky
Nejdriv merte bezpecnost, potom skalu.
To je tvrda bezpecnostni hranice pred cache v produkci.
Uspory pocitejte az po potvrzeni bezpecneho znovupouziti.
Ukazuje, zda podobne prompty stale rozbijeji znovupouziti.
Jak to funguje
Tri kroky predtim, nez budete cache verit.
Poslete old_request, old_answer a new_request pres konzervativni benchmark runner.
Overte, ze stara odpoved skutecne splnuje novy request bez skrytych poruseni.
Pred rolloutem do produkce exportujte report a opatrne doporuceni politiky.
Nahled reportu
Staticky ukazkovy report
Dobra cache politika setri penize, aniz by si uzivatel vsiml znovupouziti odpovedi.
Hosted run
Lokalni benchmark je zdarma a open source. Hosted runy jsou volitelne.
Hosted benchmark od NextModelu vyuziva kredity pro vetsi replaye, judge models a sdilitelne reporty. Lokalni runy zustavaji open source a endpoint-neutral.
Bezpecne uspory je treba merit pred zapnutim cache v produkci. Hosted runy slouzi pro vetsi evaluace, ne jako podminka benchmarku.
Developer integrace
Funguje s OpenAI-kompatibilnimi klienty.
CacheSafety Bench zustava open source a endpoint-neutral. NextModel je jen volitelny hosted endpoint a production gateway.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1FAQ
Caste dotazy
Je to semantic cache?
Ne. CacheSafety Bench je benchmark pro mereni bezpecneho znovupouziti odpovedi LLM, ne slib, ze semantic caching ma byt zapnuty ve vychozim stavu.
Musim pouzivat NextModel?
Ne. Lokalni benchmark runy jsou open source a endpoint-neutral. Hosted runy na NextModelu jsou volitelne.
Co je bad hit?
Bad hit je znovupouzita odpoved, ktera nemela byt vracena pro novy request, protoze porusuje fakta, omezeni, nacasovani, format nebo ocekavani uzivatele.
Muzu to spustit lokalne?
Ano. Benchmark je navrzen tak, aby se nejprve spoustel lokalne na toy, syntetickych nebo soukromych datasetech, ktere mate pod kontrolou.
Zacnete ted
Zmente bezpecne znovupouziti odpovedi LLM pred produkci.
Nejdriv spustte otevreny benchmark lokalne a hosted workflow pouzijte jen tehdy, kdyz potrebujete vetsi replay jobs a sdilitelne reporty.