DeepSeek V4 Flash is an efficiency-optimized Mixture-of-Experts model from DeepSeek with 284B total parameters and 13B activated parameters, supporting a 1M-token context window. It is designed for fast inference and...
بهترین modelهای ارزان LLM API برای محصولات حساس به هزینه
modelهای LLM API کمهزینه را بر اساس قیمت input، قیمت output، context، capability، منبع و تناسب با production مقایسه کنید.
این فهرست کوتاه برای چیست؟
انتخاب یک LLM API ارزان باید از شکل workload واقعی شروع شود، نه فقط از پایینترین قیمت فهرست. برای classification، summarization، routing، support draftها و batch transformationها، یک model ارزانتر میتواند بدون تغییر interface برنامه، هزینه ماهانه را کاهش دهد. برای final answer، reasoning پیچیده یا coding agentها، تیمها باید model ارزان را با fallback قویتر مقایسه کنند. NextModel قیمت، context، capability، منبع provider و نمونهکدها را پیش از production در یک جا جمع میکند.
مبنای منبع: catalog منتخب NextModel، قیمتهای عمومی providerها و OpenRouter metadata در صورت موجود بودن.
Blended price
گزینههای پیشنهادی llm api ارزان
از فهرست کوتاه شروع کنید، پرامپتهای واقعی را آزمایش کنید و پیش از مسیردهی در پروداکشن هزینه ماهانه را مقایسه کنید.
Mistral-Small-3.2-24B-Instruct-2506 is an updated 24B parameter model from Mistral optimized for instruction following, repetition reduction, and improved function calling. Compared to the 3.1 release, version 3.2 significantly improves accuracy on...
GPT-4o mini is OpenAI's newest model after [GPT-4 Omni](/models/openai/gpt-4o), supporting both text and image inputs with text outputs. As their most advanced small model, it is many multiples more affordable...
Llama 4 Maverick 17B Instruct (128E) is a high-capacity multimodal language model from Meta, built on a mixture-of-experts (MoE) architecture with 128 experts and 17 billion active parameters per forward...
جدول مقایسه
فهرست را بر اساس قیمت، ارائهدهنده، زمینه، قابلیتها و منبع مقایسه کنید.
از این نما وقتی استفاده کنید که فهرست پروداکشن را محدود میکنید، سیاست پشتیبان میسازید یا اقتصاد مدلها را مقایسه میکنید.
| Model | Provider | Input | Output | Context | Capabilities | Best for | Latency | Status | Source |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek: DeepSeek V4 Flashdeepseek/deepseek-v4-flash | DeepSeek | $0.112 / 1M tokens | $0.224 / 1M tokens | 1M | Tool callingJSON modeLong contextReasoning | low-cost Chinese tasks, long-context summary | 800-2600ms | Catalog | OpenRouter if available |
| Mistral: Mistral Small 3.2 24Bmistralai/mistral-small-3.2-24b-instruct | Mistral AI | $0.1 / 1M tokens | $0.3 / 1M tokens | 128k | Tool callingJSON modeStreamingLow cost | translation, classification | 700-2300ms | Catalog | OpenRouter if available |
| OpenAI: GPT-4o-miniopenai/gpt-4o-mini | OpenRouter | $0.15 / 1M tokens | $0.6 / 1M tokens | 128k | Tool callingVisionJSON modeLong context | low-cost chat, image understanding | 800-2400ms | Catalog | OpenRouter if available |
| Meta: Llama 4 Maverickmeta-llama/llama-4-maverick | Meta | $0.15 / 1M tokens | $0.6 / 1M tokens | 1M | JSON modeLong contextStreamingLow cost | open-model workflows, cost-sensitive long context | 950-2800ms | Catalog | OpenRouter if available |
| Google: Gemini 2.5 Flashgoogle/gemini-2.5-flash | $0.3 / 1M tokens | $2.50 / 1M tokens | 1M | Tool callingVisionJSON modeLong context | long-document summarization, image Q&A | 900-2800ms | Catalog | OpenRouter if available | |
| MoonshotAI: Kimi K2.6moonshotai/kimi-k2.6 | Moonshot AI | $0.73 / 1M tokens | $3.49 / 1M tokens | 262.1k | JSON modeLong contextStreamingTool calling | long Chinese documents, contract review | 1400-4400ms | Catalog | OpenRouter if available |
FAQ
LLM API ارزان FAQ
ارزانترین model در این catalog کدام است؟
این موضوع به نرخ ارز و طول output بستگی دارد. Doubao Seed 2.0 Mini همچنان ارزانترین گزینه production با CNY در این catalog است.
آیا تیمها باید همیشه ارزانترین LLM API را انتخاب کنند؟
خیر. modelهای ارزان برای کارهای تکراری و کمریسک مناسباند؛ اما برای final answer، reasoning پیچیده و coding agentها باید با modelهای قویتر مقایسه شوند.