Loading...Working on your request
בנצ'מרק מטמון

CacheSafety Bench

מדדו שימוש חוזר בטוח בתשובות LLM לפני הפעלת מטמון בפרודקשן.

רוב מבחני ה-cache מודדים רק hit rate. CacheSafety Bench מודד גם Safe Hit Rate, Bad Hit Rate וחיסכון בעלות API.

קראו את התיעוד

הבעיה

Hit rate לבדו לא מספיק.

semantic caching עשוי לחסוך כסף, אבל bad hit אחד יכול לערער את אמון המשתמש. CacheSafety Bench בודק האם השימוש החוזר בטוח, לא רק אם שני prompts דומים.

מדדי ליבה

מדדו בטיחות לפני שאתם מודדים סקייל.

SH
בטיחותSafe Hit Rate

סופרים רק שימוש חוזר שהמשתמש לא ירגיש.

BH
GuardrailBad Hit Rate

זהו קו הבטיחות הקשיח לפני cache בפרודקשן.

$/K
כלכלהCost Saved / 1K Requests

מודדים חיסכון רק אחרי שמאשרים ששימוש חוזר בטוח.

TR
בדיקת מלכודתSemantic Trap Failure Rate

בודק האם prompts דומים עדיין שוברים שימוש חוזר.

איך זה עובד

שלושה שלבים לפני שסומכים על cache.

P1
Replayהריצו מחדש זוגות request

העבירו old_request, old_answer ו-new_request דרך benchmark runner שמרני.

P2
שיפוטשפטו שימוש חוזר בטוח

בדקו האם התשובה הישנה באמת ממלאת את ה-request החדש בלי הפרות סמויות.

P3
מדיניותהעריכו חיסכון בטוח

ייצאו דוח והמלצת מדיניות זהירה לפני rollout לפרודקשן.

תצוגת דוח

דוח סטטי לדוגמה

מדיניות cache טובה חוסכת כסף בלי שהמשתמש ירגיש שהתשובה ממוחזרת.

סך כל הזוגות2,000
Safe Hit Rate18.4%
Bad Hit Rate0.0%
Cost Saved / 1K Requests$0.42
מדיניות מומלצתExact + Canonical
Semantic cacheNot recommended yet

הרצה hosted

ה-benchmark המקומי חינמי ו-open source. הרצות hosted הן אופציונליות.

ה-benchmark המנוהל של NextModel משתמש בקרדיטים כדי להריץ replays גדולים יותר, judge models ולהפיק דוחות שיתופיים. הרצות מקומיות נשארות open source ו-endpoint-neutral.

כדאי למדוד חיסכון בטוח לפני שמפעילים cache בפרודקשן. hosted runs נועדו להערכות גדולות יותר, לא כתנאי לשימוש ב-benchmark.

שילוב למפתחים

עובד עם לקוחות תואמי OpenAI.

CacheSafety Bench נשאר open source ו-endpoint-neutral. NextModel הוא רק endpoint hosted אופציונלי ושער production.

דוגמה תואמת OpenAI
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

שאלות נפוצות

שאלות נפוצות

האם זה semantic cache?

לא. CacheSafety Bench הוא benchmark למדידת שימוש חוזר בטוח בתשובות LLM, ולא הבטחה שצריך להפעיל semantic cache כברירת מחדל.

האם אני חייב להשתמש ב-NextModel?

לא. הרצות benchmark מקומיות הן open source ו-endpoint-neutral. הרצות hosted ב-NextModel הן אופציונליות.

מהו bad hit?

Bad hit הוא תשובה ממוחזרת שלא הייתה אמורה להישלח עבור request חדש, כי היא מפרה עובדות, מגבלות, תזמון, פורמט או ציפיות משתמש.

אפשר להריץ את זה מקומית?

כן. ה-benchmark נועד לרוץ קודם מקומית עם toy, synthetic או private datasets שבשליטתכם.

Hatchil akhshav

מדדו שימוש חוזר בטוח בתשובות LLM לפני הפרודקשן.

הריצו קודם את ה-benchmark הפתוח מקומית, ואז השתמשו ב-hosted workflow רק אם אתם צריכים replays גדולים יותר ודוחות לשיתוף.