종량제
모델 요금모델별 입력 token과 출력 token 단가부터 시작하세요.
- 큰 선결제 계약 불필요
- 출시 전 비용 추정
- OpenAI 호환 요청 사용 가능
종량제
모델 요금모델별 입력 token과 출력 token 단가부터 시작하세요.
크레딧
선불 잔액실험과 소규모 팀의 지출을 더 예측 가능하게 만듭니다.
팀
거버넌스 적용 사용량운영 팀을 위해 프로젝트, 키, 예산, 모델 정책을 관리합니다.
BYOK
내 키 사용기존 공급자 계정을 하나의 비교 및 거버넌스 계층으로 가져옵니다.
엔터프라이즈
맞춤형대규모 트래픽이나 강한 통제가 필요한 워크로드를 위한 비공개 상업 조건입니다.
계산기
운영 전 추정치로 사용하세요. 최종 청구는 공급자 사용량과 플랫폼 사용 기록에 맞춰 대조해야 합니다.
비용 = 요청 수 x ((입력 token x 입력 단가) + (출력 token x 출력 단가)) / 1,000,000.
Doubao Seed 2.0 Mini의 100만 입력 + 100만 출력 기본 추정치는 ¥2.20.
모델 가격, 토큰 수, 요청량을 기준으로 월간 비용을 추정합니다.
AI API 비용은 요청 수에 입력 token과 출력 token을 곱한 뒤 각 모델의 100만 token당 공개 가격을 적용해 추정합니다. 운영 트래픽을 보내기 전에 저비용 모델, 품질용 대체 모델, 예상 월간 요청량을 함께 계산해야 합니다.
운영 환경에서 캐시 정책을 켜기 전에 CacheSafety Bench를 실행하세요. 단순 hit rate보다 Bad Hit Rate가 더 중요합니다.
CacheSafety Bench 실행저비용 참고
가격만 보지 말고 컨텍스트 길이, 기능, 소스 라벨, 예상 사용 사례까지 함께 검토한 뒤 운영 반영을 결정하세요.
| Model | Provider | Input | Output | Context | Capabilities | Best for | Latency | Status | Source |
|---|---|---|---|---|---|---|---|---|---|
| Doubao Seed 2.0 Minidoubao-seed-2-0-mini | Volcengine | ¥0.2 / 1M tokens | ¥2 / 1M tokens | 128k | StreamingJSON mode | Coding | 900-2600ms | Catalog | Platform curated |
| DeepSeek: DeepSeek V4 Flashdeepseek/deepseek-v4-flash | DeepSeek | $0.112 / 1M tokens | $0.224 / 1M tokens | 1M | Tool callingJSON modeLong contextReasoning | low-cost Chinese tasks, long-context summary | 800-2600ms | Catalog | OpenRouter if available |
| Mistral: Mistral Small 3.2 24Bmistralai/mistral-small-3.2-24b-instruct | Mistral AI | $0.1 / 1M tokens | $0.3 / 1M tokens | 128k | Tool callingJSON modeStreamingLow cost | translation, classification | 700-2300ms | Catalog | OpenRouter if available |
| OpenAI: GPT-4o-miniopenai/gpt-4o-mini | OpenRouter | $0.15 / 1M tokens | $0.6 / 1M tokens | 128k | Tool callingVisionJSON modeLong context | low-cost chat, image understanding | 800-2400ms | Catalog | OpenRouter if available |
| Meta: Llama 4 Maverickmeta-llama/llama-4-maverick | Meta | $0.15 / 1M tokens | $0.6 / 1M tokens | 1M | JSON modeLong contextStreamingLow cost | open-model workflows, cost-sensitive long context | 950-2800ms | Catalog | OpenRouter if available |
| Google: Gemini 2.5 Flashgoogle/gemini-2.5-flash | $0.3 / 1M tokens | $2.50 / 1M tokens | 1M | Tool callingVisionJSON modeLong context | long-document summarization, image Q&A | 900-2800ms | Catalog | OpenRouter if available | |
| DeepSeek: R1deepseek/deepseek-r1 | DeepSeek | $0.7 / 1M tokens | $2.50 / 1M tokens | 163.8k | JSON modeLong contextReasoningStreaming | Chinese reasoning, math | 1800-6000ms | Catalog | OpenRouter if available |
| Qwen: Qwen3 Coder Plusqwen/qwen3-coder-plus | Alibaba Cloud / Qwen | $0.65 / 1M tokens | $3.25 / 1M tokens | 1M | Tool callingJSON modeLong contextStreaming | Chinese engineering workflows, code generation | 1200-3900ms | Catalog | OpenRouter if available |
FAQ
계산기는 입력 token과 출력 token에 선택한 모델의 100만 token당 가격을 곱한 뒤 요청 수를 적용해 추정합니다.
예. 입력 ¥0.20과 출력 ¥2.00을 더하면 이 100만 + 100만 추정치는 ¥2.20입니다.
예. BYOK 플랜은 기존 공급자 계정을 가진 팀이 일관된 정책과 사용량 보고를 유지하도록 설계됐습니다.
있습니다. 트래픽 규모, 공급자 조합, 리전, 지원 요구 사항, 거버넌스 요구 사항에 따라 협의할 수 있습니다.