CacheSafety Bench چیست؟

CacheSafety Bench یک بنچمارک برای اندازهگیری استفاده مجدد امن از پاسخهای LLM است. این ابزار Safe Hit Rate، Bad Hit Rate، semantic trap failure rate و هزینه صرفهجوییشده را مقایسه میکند.

آیا CacheSafety Bench یک semantic cache است؟

خیر. CacheSafety Bench یک workflow اندازهگیری است، نه ادعایی که semantic caching باید بهصورت پیشفرض فعال شود.

بنچمارک کش

CacheSafety Bench

پيش از فعال کردن کش در محيط توليد، بازاستفاده امن از پاسخ هاي LLM را اندازه گيري کنيد.

benchmark ميزباني شده را اجرا کنيد GitHub را ببينيد صرفه جويي را برآورد کنيد

بيشتر benchmarkهاي cache فقط hit rate را بهينه مي کنند. CacheSafety Bench علاوه بر آن Safe Hit Rate، Bad Hit Rate و صرفه جويي هزينه API را هم مي سنجد.

مستندات را بخوانيد

مسئله

فقط hit rate کافي نيست.

semantic caching مي تواند هزينه را کم کند، اما يک bad hit هم کافي است تا اعتماد کاربر آسيب ببيند. CacheSafety Bench مي سنجد بازاستفاده امن هست يا نه، نه فقط اينکه دو prompt شبيه به هم باشند.

شاخص هاي کليدي

پيش از سنجش مقياس، ايمني را بسنجيد.

ايمنيSafe Hit Rate

فقط بازاستفاده اي را بسنجيد که کاربر متوجه آن نشود.

GuardrailBad Hit Rate

اين همان مرز سخت ايمني پيش از cache در production است.

$/K

صرفه اقتصاديCost Saved / 1K Requests

صرفه جويي را فقط پس از تاييد بازاستفاده امن حساب کنيد.

آزمون تلهSemantic Trap Failure Rate

مشخص مي کند آيا promptهاي مشابه هنوز بازاستفاده را مي شکنند يا نه.

نحوه کار

سه گام پيش از اعتماد به cache.

بازپخشجفت requestها را بازپخش کنيد

old_request، old_answer و new_request را از يک benchmark runner محافظه کار عبور دهيد.

داوريبازاستفاده امن را داوري کنيد

بررسي کنيد پاسخ قديمي واقعاً request جديد را بدون نقض پنهان برآورده مي کند يا نه.

سياستصرفه جويي امن را برآورد کنيد

پيش از rollout در production يک گزارش و توصيه سياستي محتاطانه صادر کنيد.

پيش نمايش گزارش

نمونه گزارش ايستا

سياست cache خوب سياستي است که بدون جلب توجه کاربر، هزينه را کم کند.

تعداد کل جفت ها2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

سياست پيشنهاديExact + Canonical

Semantic cacheNot recommended yet

برآورد صرفه جويي مستندات را بخوانيد

اجراي ميزباني شده

benchmark محلي رايگان و متن باز است. اجراي ميزباني شده اختياري است.

benchmark ميزباني شده NextModel براي replayهاي بزرگ تر، judge modelها و گزارش هاي قابل اشتراک از credit استفاده مي کند. اجراهاي محلي همچنان متن باز و endpoint-neutral مي مانند.

پيش از فعال کردن cache در production، بايد صرفه جويي امن را اندازه بگيريد. اجراي ميزباني شده براي ارزيابي هاي بزرگ تر است، نه پيش نياز benchmark.

با اعتبار رايگان شروع کنيد

يکپارچه سازي توسعه دهنده

با clientهاي سازگار با OpenAI کار مي کند.

CacheSafety Bench همچنان متن باز و endpoint-neutral است. NextModel فقط يک endpoint ميزباني شده اختياري و gateway توليدي است.

نمونه سازگار با OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

سوالات رايج

آيا اين semantic cache است؟

خير. CacheSafety Bench يک benchmark براي سنجش بازاستفاده امن از پاسخ هاي LLM است، نه اينکه semantic cache بايد به طور پيش فرض فعال شود.

آيا بايد از NextModel استفاده کنم؟

خير. اجراي محلي benchmark متن باز و endpoint-neutral است. اجراي hosted در NextModel اختياري است.

Bad hit چيست؟

Bad hit پاسخي است که نبايد براي request جديد برگردانده مي شد، چون facts، constraints، timing، format يا انتظار کاربر را نقض مي کند.

آيا مي توانم آن را محلي اجرا کنم؟

بله. اين benchmark طوري طراحي شده که ابتدا به صورت محلي با toy، synthetic يا private datasets تحت کنترل شما اجرا شود.

Hala shoru kon

پيش از production، بازاستفاده امن از پاسخ هاي LLM را اندازه بگيريد.

ابتدا benchmark باز را به صورت محلي اجرا کنيد، و فقط وقتي به replayهاي بزرگ تر و گزارش هاي قابل اشتراک نياز داريد از hosted workflow استفاده کنيد.

benchmark ميزباني شده را اجرا کنيد مستندات را بخوانيد