סופרים רק שימוש חוזר שהמשתמש לא ירגיש.
CacheSafety Bench
מדדו שימוש חוזר בטוח בתשובות LLM לפני הפעלת מטמון בפרודקשן.
רוב מבחני ה-cache מודדים רק hit rate. CacheSafety Bench מודד גם Safe Hit Rate, Bad Hit Rate וחיסכון בעלות API.
קראו את התיעודהבעיה
Hit rate לבדו לא מספיק.
semantic caching עשוי לחסוך כסף, אבל bad hit אחד יכול לערער את אמון המשתמש. CacheSafety Bench בודק האם השימוש החוזר בטוח, לא רק אם שני prompts דומים.
מדדי ליבה
מדדו בטיחות לפני שאתם מודדים סקייל.
זהו קו הבטיחות הקשיח לפני cache בפרודקשן.
מודדים חיסכון רק אחרי שמאשרים ששימוש חוזר בטוח.
בודק האם prompts דומים עדיין שוברים שימוש חוזר.
איך זה עובד
שלושה שלבים לפני שסומכים על cache.
העבירו old_request, old_answer ו-new_request דרך benchmark runner שמרני.
בדקו האם התשובה הישנה באמת ממלאת את ה-request החדש בלי הפרות סמויות.
ייצאו דוח והמלצת מדיניות זהירה לפני rollout לפרודקשן.
תצוגת דוח
דוח סטטי לדוגמה
מדיניות cache טובה חוסכת כסף בלי שהמשתמש ירגיש שהתשובה ממוחזרת.
הרצה hosted
ה-benchmark המקומי חינמי ו-open source. הרצות hosted הן אופציונליות.
ה-benchmark המנוהל של NextModel משתמש בקרדיטים כדי להריץ replays גדולים יותר, judge models ולהפיק דוחות שיתופיים. הרצות מקומיות נשארות open source ו-endpoint-neutral.
כדאי למדוד חיסכון בטוח לפני שמפעילים cache בפרודקשן. hosted runs נועדו להערכות גדולות יותר, לא כתנאי לשימוש ב-benchmark.
שילוב למפתחים
עובד עם לקוחות תואמי OpenAI.
CacheSafety Bench נשאר open source ו-endpoint-neutral. NextModel הוא רק endpoint hosted אופציונלי ושער production.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1שאלות נפוצות
שאלות נפוצות
האם זה semantic cache?
לא. CacheSafety Bench הוא benchmark למדידת שימוש חוזר בטוח בתשובות LLM, ולא הבטחה שצריך להפעיל semantic cache כברירת מחדל.
האם אני חייב להשתמש ב-NextModel?
לא. הרצות benchmark מקומיות הן open source ו-endpoint-neutral. הרצות hosted ב-NextModel הן אופציונליות.
מהו bad hit?
Bad hit הוא תשובה ממוחזרת שלא הייתה אמורה להישלח עבור request חדש, כי היא מפרה עובדות, מגבלות, תזמון, פורמט או ציפיות משתמש.
אפשר להריץ את זה מקומית?
כן. ה-benchmark נועד לרוץ קודם מקומית עם toy, synthetic או private datasets שבשליטתכם.
Hatchil akhshav
מדדו שימוש חוזר בטוח בתשובות LLM לפני הפרודקשן.
הריצו קודם את ה-benchmark הפתוח מקומית, ואז השתמשו ב-hosted workflow רק אם אתם צריכים replays גדולים יותר ודוחות לשיתוף.