תשובה ישירה

העמוד הזה מסביר איך צוותים משתמשים בשער התואם ל-OpenAI של NextModel. הבינו איך למדוד שימוש חוזר בטוח בתשובות LLM לפני הפעלת מטמון בסביבת ייצור. הוא מוסיף את השלבים המעשיים, הערות ההגדרה והשאלות הנפוצות.

למה קיים המבחן הזה?

רוב מבחני המטמון ממקסמים רק את שיעור הפגיעות. CacheSafety Bench שואל שאלה מחמירה יותר: האם תשובה ישנה יכולה לענות בבטחה על בקשה חדשה מבלי ליצור פגיעה שגויה שהמשתמש יבחין בה?

Safe Hit Rateתשובות שניתן לעשות בהן שימוש חוזר בלי שהמשתמש יבחין שהן נשמרו
Bad Hit Rateתשובות ששימשו מחדש בצורה לא בטוחה
חיסכון בעלות לכל 1K בקשותחיסכון משוער תחת אילוץ בטיחות
Semantic Trap Failure Rateכמה פעמים פרומפטים דומים נכשלים בשימוש חוזר

גרסה מתארחת וגרסה מקומית

הגרסה המקומית של המבחן היא קוד פתוח ואינה קשורה לנקודת קצה מסוימת. הרצות מתארחות ב-NextModel מתאימות לעבודות הרצה חוזרת גדולות יותר, למודלי הערכה ולדוחות שניתן לשתף.

נקודת קצה תואמת OpenAI
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

מאיפה מתחילים?

התחילו מעמוד המבחן הציבורי, ואז עברו למפתחות API או לחיוב רק כשאתם מוכנים להריץ הערכות מתארחות גדולות יותר.

עמוד הבית/benchmarks/cache-safety
מפתחות API/dashboard/api-keys
חיוב/dashboard/billing