מה זה CacheSafety Bench?

CacheSafety Bench הוא benchmark למדידת שימוש חוזר בטוח בתגובות LLM. הוא משווה Safe Hit Rate, Bad Hit Rate, semantic trap failure rate ואת העלות שנחסכה.

האם CacheSafety Bench הוא semantic cache?

לא. CacheSafety Bench הוא workflow למדידה, לא טענה ש-semantic caching צריך להיות מופעל כברירת מחדל.

בנצ'מרק מטמון

CacheSafety Bench

מדדו שימוש חוזר בטוח בתשובות LLM לפני הפעלת מטמון בפרודקשן.

הריצו benchmark hosted צפו ב-GitHub העריכו חיסכון

רוב מבחני ה-cache מודדים רק hit rate. CacheSafety Bench מודד גם Safe Hit Rate, Bad Hit Rate וחיסכון בעלות API.

קראו את התיעוד

הבעיה

Hit rate לבדו לא מספיק.

semantic caching עשוי לחסוך כסף, אבל bad hit אחד יכול לערער את אמון המשתמש. CacheSafety Bench בודק האם השימוש החוזר בטוח, לא רק אם שני prompts דומים.

מדדי ליבה

מדדו בטיחות לפני שאתם מודדים סקייל.

בטיחותSafe Hit Rate

סופרים רק שימוש חוזר שהמשתמש לא ירגיש.

GuardrailBad Hit Rate

זהו קו הבטיחות הקשיח לפני cache בפרודקשן.

$/K

כלכלהCost Saved / 1K Requests

מודדים חיסכון רק אחרי שמאשרים ששימוש חוזר בטוח.

בדיקת מלכודתSemantic Trap Failure Rate

בודק האם prompts דומים עדיין שוברים שימוש חוזר.

איך זה עובד

שלושה שלבים לפני שסומכים על cache.

Replayהריצו מחדש זוגות request

העבירו old_request, old_answer ו-new_request דרך benchmark runner שמרני.

שיפוטשפטו שימוש חוזר בטוח

בדקו האם התשובה הישנה באמת ממלאת את ה-request החדש בלי הפרות סמויות.

מדיניותהעריכו חיסכון בטוח

ייצאו דוח והמלצת מדיניות זהירה לפני rollout לפרודקשן.

תצוגת דוח

דוח סטטי לדוגמה

מדיניות cache טובה חוסכת כסף בלי שהמשתמש ירגיש שהתשובה ממוחזרת.

סך כל הזוגות2,000

Safe Hit Rate18.4%

Bad Hit Rate0.0%

Cost Saved / 1K Requests$0.42

מדיניות מומלצתExact + Canonical

Semantic cacheNot recommended yet

הערכת חיסכון קראו את התיעוד

הרצה hosted

ה-benchmark המקומי חינמי ו-open source. הרצות hosted הן אופציונליות.

ה-benchmark המנוהל של NextModel משתמש בקרדיטים כדי להריץ replays גדולים יותר, judge models ולהפיק דוחות שיתופיים. הרצות מקומיות נשארות open source ו-endpoint-neutral.

כדאי למדוד חיסכון בטוח לפני שמפעילים cache בפרודקשן. hosted runs נועדו להערכות גדולות יותר, לא כתנאי לשימוש ב-benchmark.

התחילו עם קרדיטים חינם

שילוב למפתחים

עובד עם לקוחות תואמי OpenAI.

CacheSafety Bench נשאר open source ו-endpoint-neutral. NextModel הוא רק endpoint hosted אופציונלי ושער production.

דוגמה תואמת OpenAI

export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

שאלות נפוצות

האם זה semantic cache?

לא. CacheSafety Bench הוא benchmark למדידת שימוש חוזר בטוח בתשובות LLM, ולא הבטחה שצריך להפעיל semantic cache כברירת מחדל.

האם אני חייב להשתמש ב-NextModel?

לא. הרצות benchmark מקומיות הן open source ו-endpoint-neutral. הרצות hosted ב-NextModel הן אופציונליות.

מהו bad hit?

Bad hit הוא תשובה ממוחזרת שלא הייתה אמורה להישלח עבור request חדש, כי היא מפרה עובדות, מגבלות, תזמון, פורמט או ציפיות משתמש.

אפשר להריץ את זה מקומית?

כן. ה-benchmark נועד לרוץ קודם מקומית עם toy, synthetic או private datasets שבשליטתכם.

Hatchil akhshav

מדדו שימוש חוזר בטוח בתשובות LLM לפני הפרודקשן.

הריצו קודם את ה-benchmark הפתוח מקומית, ואז השתמשו ב-hosted workflow רק אם אתם צריכים replays גדולים יותר ודוחות לשיתוף.

הריצו benchmark hosted קראו את התיעוד