핵심
이 페이지는 NextModel의 OpenAI 호환 게이트웨이를 어떻게 쓰는지 설명합니다. 운영 캐시를 켜기 전에 안전한 LLM 응답 재사용을 어떻게 측정하는지 보여줍니다. 실제 접속 단계, 설정 포인트, 자주 묻는 질문을 덧붙입니다.
이 벤치마크가 필요한 이유
대부분의 캐시 벤치마크는 히트율만 최적화합니다. CacheSafety Bench는 오래된 답변이 새 요청에 안전하게 답할 수 있는지, 사용자에게 보일 만큼 나쁜 히트를 만들지 않는지를 더 엄격하게 묻습니다.
| Safe Hit Rate | 사용자가 캐시라고 느끼지 못하는 재사용 답변 |
| Bad Hit Rate | 안전하지 않은 재사용 답변 |
| 1K 요청당 절감 비용 | 안전 조건에서의 추정 절감 |
| Semantic Trap Failure Rate | 비슷해 보이는 프롬프트에서도 재사용이 실패하는 빈도 |
호스팅과 로컬의 위치
로컬 벤치마크는 오픈소스이며 엔드포인트에 독립적입니다. NextModel 호스트 실행은 대규모 리플레이 작업, 판정 모델, 공유 가능한 리포트에 더 적합합니다.
OpenAI 호환 엔드포인트
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1어디서 시작할까
공개 벤치마크 페이지부터 시작하고, 더 큰 호스팅 평가를 돌릴 준비가 되었을 때만 API 키나 청구 페이지로 넘어가세요.
| 랜딩 페이지 | /benchmarks/cache-safety |
| API 키 | /dashboard/api-keys |
| 청구 | /dashboard/billing |