Loading...Working on your request
Benchmark cache

CacheSafety Bench

Μετρηστε την ασφαλη επαναχρηση απαντησεων LLM πριν ενεργοποιησετε cache στην παραγωγη.

Τα περισσοτερα cache benchmarks κοιτουν μονο το hit rate. Το CacheSafety Bench μετρα και Safe Hit Rate, Bad Hit Rate και εξοικονομηση κοστους API.

Διαβαστε τα docs

Προβλημα

Το hit rate απο μονο του δεν αρκει.

Το semantic caching μπορει να μειωσει το κοστος, αλλα ενα bad hit αρκει για να φανει αναξιοπιστο το μοντελο. Το CacheSafety Bench μετρα αν η επαναχρηση ειναι ασφαλης, οχι απλως αν δυο prompts μοιαζουν.

Βασικα metrics

Μετρηστε ασφαλεια πριν μετρησετε κλιμακα.

SH
ΑσφαλειαSafe Hit Rate

Μετρηστε μονο την επαναχρηση που ο χρηστης δεν θα καταλαβει.

BH
GuardrailBad Hit Rate

Αυτη ειναι η αυστηρη γραμμη ασφαλειας πριν το production cache.

$/K
ΟικονομικαCost Saved / 1K Requests

Μετρηστε την εξοικονομηση μονο αφου επιβεβαιωθει ασφαλης επαναχρηση.

TR
Δοκιμη παγιδαςSemantic Trap Failure Rate

Δειχνει αν παρομοια prompts εξακολουθουν να σπανε την επαναχρηση.

Πως λειτουργει

Τρια βηματα πριν εμπιστευτειτε το cache.

P1
ReplayΞανατρεξτε τα request pairs

Περαστε old_request, old_answer και new_request απο εναν συντηρητικο benchmark runner.

P2
ΕλεγχοςΚρινετε την ασφαλη επαναχρηση

Ελεγξτε αν η παλια απαντηση καλυπτει πραγματικα το νεο request χωρις κρυφες παραβιασεις.

P3
ΠολιτικηΕκτιμηστε ασφαλη εξοικονομηση

Εξαγαγετε αναφορα και προσεκτικη προταση πολιτικης πριν το production rollout.

Προεπισκοπηση αναφορας

Στατικο παραδειγμα αναφορας

Μια καλη πολιτικη cache εξοικονομει χρηματα χωρις να καταλαβαινει ο χρηστης την επαναχρηση.

Συνολικα ζευγη2,000
Safe Hit Rate18.4%
Bad Hit Rate0.0%
Cost Saved / 1K Requests$0.42
Προτεινομενη πολιτικηExact + Canonical
Semantic cacheNot recommended yet

Hosted run

Το τοπικο benchmark ειναι δωρεαν και open source. Τα hosted runs ειναι προαιρετικα.

Το hosted benchmark του NextModel χρησιμοποιει credits για μεγαλυτερα replays, judge models και shareable reports. Τα τοπικα runs παραμενουν open source και endpoint-neutral.

Η ασφαλης εξοικονομηση πρεπει να μετριεται πριν το production caching. Τα hosted runs ειναι για μεγαλυτερες αξιολογησεις, οχι προϋποθεση του benchmark.

Developer integration

Λειτουργει με OpenAI-compatible clients.

Το CacheSafety Bench παραμενει open source και endpoint-neutral. Το NextModel ειναι απλως ενα προαιρετικο hosted endpoint και production gateway.

OpenAI-compatible παραδειγμα
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

Συχνες ερωτησεις

Ειναι αυτο semantic cache;

Οχι. Το CacheSafety Bench ειναι benchmark για ασφαλη επαναχρηση απαντησεων LLM, οχι υποσχεση οτι το semantic cache πρεπει να ενεργοποιειται απο προεπιλογη.

Χρειαζεται να χρησιμοποιησω το NextModel;

Οχι. Τα τοπικα benchmark runs ειναι open source και endpoint-neutral. Τα hosted runs στο NextModel ειναι προαιρετικα.

Τι ειναι το bad hit;

Bad hit ειναι μια επαναχρησιμοποιημενη απαντηση που δεν επρεπε να επιστραφει στο νεο request επειδη παραβιαζει facts, constraints, timing, format η προσδοκιες χρηστη.

Μπορω να το τρεξω τοπικα;

Ναι. Το benchmark εχει σχεδιαστει να τρεχει πρωτα τοπικα με toy, synthetic η private datasets που ελεγχετε.

Xekinise tora

Μετρηστε ασφαλη επαναχρηση απαντησεων LLM πριν την παραγωγη.

Τρεξτε πρωτα το ανοιχτο benchmark τοπικα και χρησιμοποιηστε hosted workflow μονο οταν χρειαζεστε μεγαλυτερα replay jobs και shareable reports.