Loading...Working on your request
캐시 벤치마크

CacheSafety Bench

프로덕션 캐시를 켜기 전에 LLM 응답 재사용이 안전한지 측정합니다.

대부분의 캐시 벤치마크는 hit rate만 최적화합니다. CacheSafety Bench는 Safe Hit Rate, Bad Hit Rate, API 비용 절감도 함께 측정합니다.

문서 읽기

문제

hit rate만으로는 충분하지 않습니다.

LLM semantic caching은 비용을 줄일 수 있지만 bad hit 한 번만으로도 모델이 틀려 보일 수 있습니다. CacheSafety Bench는 두 프롬프트가 비슷해 보이는지가 아니라 재사용이 안전한지를 측정합니다.

핵심 지표

규모보다 먼저 안전성을 측정하세요.

SH
안전성Safe Hit Rate

사용자가 재사용을 눈치채지 못하는 경우만 집계합니다.

BH
가드레일Bad Hit Rate

프로덕션 캐시 전에 지켜야 할 엄격한 안전선입니다.

$/K
경제성Cost Saved / 1K Requests

안전한 재사용이 확인된 뒤에만 절감액을 계산합니다.

TR
트랩 테스트Semantic Trap Failure Rate

비슷해 보이는 프롬프트가 여전히 재사용을 깨는지 측정합니다.

작동 방식

캐시를 신뢰하기 전에 거치는 세 단계.

P1
리플레이request pair를 재생합니다

old_request, old_answer, new_request를 보수적인 benchmark runner로 돌립니다.

P2
판정안전한 재사용인지 판정합니다

숨은 위반 없이 기존 답변이 새 request를 정말 충족하는지 확인합니다.

P3
정책안전한 절감액을 추정합니다

프로덕션 rollout 전에 보고서와 신중한 정책 권고를 내보냅니다.

리포트 미리보기

정적 예시 리포트

좋은 캐시 정책은 사용자가 재사용을 눈치채지 못한 채 비용을 절감하는 것입니다.

전체 페어 수2,000
Safe Hit Rate18.4%
Bad Hit Rate0.0%
Cost Saved / 1K Requests$0.42
권장 정책Exact + Canonical
Semantic cacheNot recommended yet

호스티드 실행

로컬 벤치마크는 무료이며 open source입니다. 호스티드 실행은 선택 사항입니다.

NextModel 호스티드 벤치마크는 더 큰 replay, judge model, 공유 가능한 리포트를 위해 크레딧을 사용합니다. 로컬 실행은 계속 open source이면서 endpoint-neutral입니다.

프로덕션 캐싱 전에 안전한 절감 효과를 먼저 측정해야 합니다. 호스티드 실행은 더 큰 평가를 위한 것이지 벤치마크 사용의 전제조건이 아닙니다.

개발자 통합

OpenAI 호환 클라이언트와 함께 작동합니다.

CacheSafety Bench는 계속 open source이며 endpoint-neutral입니다. NextModel은 선택 가능한 hosted endpoint이자 production gateway일 뿐입니다.

OpenAI 호환 예시
export OPENAI_API_KEY=...
export OPENAI_BASE_URL=https://api.nextmodel.app/v1

FAQ

자주 묻는 질문

이것은 semantic cache인가요?

아니요. CacheSafety Bench는 안전한 LLM 응답 재사용을 측정하는 benchmark이지, semantic cache를 기본으로 켜야 한다는 약속이 아닙니다.

NextModel을 꼭 써야 하나요?

아니요. 로컬 benchmark run은 open source이며 endpoint-neutral입니다. NextModel의 hosted run은 선택 사항입니다.

bad hit이란 무엇인가요?

bad hit은 새 request에 반환되면 안 되었던 재사용 답변으로, 사실, 제약, 타이밍, 형식 또는 사용자 기대를 어기는 경우를 말합니다.

로컬에서 실행할 수 있나요?

네. 이 benchmark는 먼저 toy, synthetic, private dataset으로 로컬 실행하도록 설계되었습니다.

지금 시작

프로덕션 전에 안전한 LLM 응답 재사용을 측정하세요.

먼저 공개 벤치마크를 로컬에서 실행하고, 더 큰 replay job과 공유 가능한 리포트가 필요할 때만 hosted workflow를 사용하세요.