فقط بازاستفاده اي را بسنجيد که کاربر متوجه آن نشود.
CacheSafety Bench
پيش از فعال کردن کش در محيط توليد، بازاستفاده امن از پاسخ هاي LLM را اندازه گيري کنيد.
بيشتر benchmarkهاي cache فقط hit rate را بهينه مي کنند. CacheSafety Bench علاوه بر آن Safe Hit Rate، Bad Hit Rate و صرفه جويي هزينه API را هم مي سنجد.
مستندات را بخوانيدمسئله
فقط hit rate کافي نيست.
semantic caching مي تواند هزينه را کم کند، اما يک bad hit هم کافي است تا اعتماد کاربر آسيب ببيند. CacheSafety Bench مي سنجد بازاستفاده امن هست يا نه، نه فقط اينکه دو prompt شبيه به هم باشند.
شاخص هاي کليدي
پيش از سنجش مقياس، ايمني را بسنجيد.
اين همان مرز سخت ايمني پيش از cache در production است.
صرفه جويي را فقط پس از تاييد بازاستفاده امن حساب کنيد.
مشخص مي کند آيا promptهاي مشابه هنوز بازاستفاده را مي شکنند يا نه.
نحوه کار
سه گام پيش از اعتماد به cache.
old_request، old_answer و new_request را از يک benchmark runner محافظه کار عبور دهيد.
بررسي کنيد پاسخ قديمي واقعاً request جديد را بدون نقض پنهان برآورده مي کند يا نه.
پيش از rollout در production يک گزارش و توصيه سياستي محتاطانه صادر کنيد.
پيش نمايش گزارش
نمونه گزارش ايستا
سياست cache خوب سياستي است که بدون جلب توجه کاربر، هزينه را کم کند.
اجراي ميزباني شده
benchmark محلي رايگان و متن باز است. اجراي ميزباني شده اختياري است.
benchmark ميزباني شده NextModel براي replayهاي بزرگ تر، judge modelها و گزارش هاي قابل اشتراک از credit استفاده مي کند. اجراهاي محلي همچنان متن باز و endpoint-neutral مي مانند.
پيش از فعال کردن cache در production، بايد صرفه جويي امن را اندازه بگيريد. اجراي ميزباني شده براي ارزيابي هاي بزرگ تر است، نه پيش نياز benchmark.
يکپارچه سازي توسعه دهنده
با clientهاي سازگار با OpenAI کار مي کند.
CacheSafety Bench همچنان متن باز و endpoint-neutral است. NextModel فقط يک endpoint ميزباني شده اختياري و gateway توليدي است.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1سوالات رايج
سوالات رايج
آيا اين semantic cache است؟
خير. CacheSafety Bench يک benchmark براي سنجش بازاستفاده امن از پاسخ هاي LLM است، نه اينکه semantic cache بايد به طور پيش فرض فعال شود.
آيا بايد از NextModel استفاده کنم؟
خير. اجراي محلي benchmark متن باز و endpoint-neutral است. اجراي hosted در NextModel اختياري است.
Bad hit چيست؟
Bad hit پاسخي است که نبايد براي request جديد برگردانده مي شد، چون facts، constraints، timing، format يا انتظار کاربر را نقض مي کند.
آيا مي توانم آن را محلي اجرا کنم؟
بله. اين benchmark طوري طراحي شده که ابتدا به صورت محلي با toy، synthetic يا private datasets تحت کنترل شما اجرا شود.
Hala shoru kon
پيش از production، بازاستفاده امن از پاسخ هاي LLM را اندازه بگيريد.
ابتدا benchmark باز را به صورت محلي اجرا کنيد، و فقط وقتي به replayهاي بزرگ تر و گزارش هاي قابل اشتراک نياز داريد از hosted workflow استفاده کنيد.