תשובה ישירה
העמוד הזה מסביר איך צוותים משתמשים בשער התואם ל-OpenAI של NextModel. הבינו איך למדוד שימוש חוזר בטוח בתשובות LLM לפני הפעלת מטמון בסביבת ייצור. הוא מוסיף את השלבים המעשיים, הערות ההגדרה והשאלות הנפוצות.
למה קיים המבחן הזה?
רוב מבחני המטמון ממקסמים רק את שיעור הפגיעות. CacheSafety Bench שואל שאלה מחמירה יותר: האם תשובה ישנה יכולה לענות בבטחה על בקשה חדשה מבלי ליצור פגיעה שגויה שהמשתמש יבחין בה?
| Safe Hit Rate | תשובות שניתן לעשות בהן שימוש חוזר בלי שהמשתמש יבחין שהן נשמרו |
| Bad Hit Rate | תשובות ששימשו מחדש בצורה לא בטוחה |
| חיסכון בעלות לכל 1K בקשות | חיסכון משוער תחת אילוץ בטיחות |
| Semantic Trap Failure Rate | כמה פעמים פרומפטים דומים נכשלים בשימוש חוזר |
גרסה מתארחת וגרסה מקומית
הגרסה המקומית של המבחן היא קוד פתוח ואינה קשורה לנקודת קצה מסוימת. הרצות מתארחות ב-NextModel מתאימות לעבודות הרצה חוזרת גדולות יותר, למודלי הערכה ולדוחות שניתן לשתף.
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1מאיפה מתחילים?
התחילו מעמוד המבחן הציבורי, ואז עברו למפתחות API או לחיוב רק כשאתם מוכנים להריץ הערכות מתארחות גדולות יותר.
| עמוד הבית | /benchmarks/cache-safety |
| מפתחות API | /dashboard/api-keys |
| חיוב | /dashboard/billing |