ما هو CacheSafety Bench؟

CacheSafety Bench هو benchmark لقياس إعادة الاستخدام الآمن لاستجابات LLM. يقارن بين Safe Hit Rate وBad Hit Rate وsemantic trap failure rate والتكلفة التي تم توفيرها.

هل CacheSafety Bench هو semantic cache؟

لا. CacheSafety Bench هو workflow للقياس، وليس ادعاءً بأن semantic caching يجب أن يكون مفعلاً بشكل افتراضي.

معيار التخزين المؤقت

CacheSafety Bench

قِس ما اذا كانت اعادة استخدام استجابات LLM آمنة قبل تشغيل التخزين المؤقت في بيئة الانتاج.

تشغيل المعيار المستضاف عرض GitHub تقدير التوفير

كثير من معايير التخزين المؤقت تركز على معدل الاصابة فقط. CacheSafety Bench يقيس ايضا معدل الاصابة الآمنة ومعدل الاصابة الخاطئة وتوفير تكلفة API.

قراءة الوثائق

المشكلة

معدل الاصابة وحده لا يكفي.

قد يوفر التخزين الدلالي المال، لكن اصابة خاطئة واحدة قد تضعف ثقة المستخدم. CacheSafety Bench يقيس ما اذا كانت اعادة الاستخدام آمنة، لا مجرد تشابه المطالبات.

المقاييس الرئيسية

قِس الامان قبل ان تقيس التوسع.

الامانمعدل الاصابة الآمنة

يحتسب فقط الاجابات المعاد استخدامها من دون ان يلاحظها المستخدم.

الحاجزمعدل الاصابة الخاطئة

هذا هو حد الامان الصارم قبل تفعيل التخزين المؤقت في الانتاج.

$/K

الجدوىالتكلفة الموفرة لكل 1000 طلب

لا يتم احتساب التوفير الا بعد اثبات ان اعادة الاستخدام آمنة.

اختبار الفخمعدل فشل الفخ الدلالي

يقيس ما اذا كانت المطالبات المتشابهة ظاهريا ما زالت تكسر اعادة الاستخدام.

كيف يعمل

ثلاث خطوات قبل الوثوق بالتخزين المؤقت.

اعادة التشغيلاعادة تشغيل ازواج الطلبات

مرر old_request و old_answer و new_request عبر مشغل معيار محافظ.

التحققالتحقق من اعادة الاستخدام الآمنة

تاكد من ان الاجابة القديمة تلبّي الطلب الجديد فعلا من دون مخالفات خفية.

السياسةتقدير التوفير الآمن

صدر تقريرا وتوصية حذرة بالسياسة قبل الاطلاق في بيئة الانتاج.

معاينة التقرير

مثال تقرير ثابت

سياسة التخزين المؤقت الجيدة هي التي توفر المال من دون ان يلاحظ المستخدم اعادة استخدام الاجابات.

اجمالي الازواج2,000

معدل الاصابة الآمنة18.4%

معدل الاصابة الخاطئة0.0%

التكلفة الموفرة لكل 1000 طلب$0.42

السياسة الموصى بهاExact + Canonical

التخزين الدلاليNot recommended yet

تقدير التوفير قراءة الوثائق

التشغيل المستضاف

المعيار المحلي مجاني ومفتوح المصدر. التشغيل المستضاف اختياري.

يستخدم المعيار المستضاف عبر NextModel الرصيد لتشغيل اعادات اكبر، وتقييم النماذج، وانتاج تقارير قابلة للمشاركة. اما التشغيل المحلي فيبقى مفتوح المصدر ومحايدا للمنفذ.

يجب قياس التوفير الآمن قبل تشغيل التخزين المؤقت في الانتاج. التشغيل المستضاف مخصص للتقييمات الاكبر، وليس شرطا لاستخدام هذا المعيار.

ابدأ برصيد مجاني

تكامل المطورين

يعمل مع العملاء المتوافقين مع OpenAI.

يبقى CacheSafety Bench مفتوح المصدر ومحايدا للمنفذ. NextModel مجرد منفذ مستضاف اختياري وبوابة للانتاج.

مثال متوافق مع OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

الاسئلة الشائعة

هل هذا semantic cache؟

لا. CacheSafety Bench هو معيار لقياس اعادة استخدام استجابات LLM بشكل آمن، وليس وعدا بانه يجب تشغيل semantic cache افتراضيا.

هل يجب علي استخدام NextModel؟

لا. التشغيل المحلي مفتوح المصدر ومحايد بالنسبة للمنفذ. التشغيل المستضاف عبر NextModel اختياري.

ما المقصود بالاصابة الخاطئة؟

الاصابة الخاطئة هي اجابة معاد استخدامها لم يكن ينبغي ارجاعها للطلب الجديد لانها تخالف الحقائق او القيود او التوقيت او التنسيق او توقع المستخدم.

هل يمكنني تشغيله محليا؟

نعم. صُمم المعيار ليعمل محليا اولا باستخدام بيانات تجريبية او تركيبية او خاصة تتحكم بها.

ابدأ دلوقتي

قِس اعادة استخدام استجابات LLM الآمنة قبل الانتاج.

شغّل المعيار المفتوح محليا اولا، ثم استخدم سير العمل المستضاف فقط عندما تحتاج الى اعادة تشغيل اكبر وتقارير قابلة للمشاركة.

تشغيل المعيار المستضاف قراءة الوثائق