DeepSeek V4 Flash is an efficiency-optimized Mixture-of-Experts model from DeepSeek with 284B total parameters and 13B activated parameters, supporting a 1M-token context window. It is designed for fast inference and...
מודלי LLM API זולים מובילים למוצרים רגישי עלות
השוו מודלי LLM API בעלות נמוכה לפי מחיר input, מחיר output, הקשר, capability, מקור והתאמה לפרודקשן.
למה הרשימה הזו מיועדת?
בחירת LLM API זול צריכה להתחיל מצורת ה-workload ולא רק מהמחיר הנמוך ביותר שמופיע בדף. עבור classification, summarization, routing, support drafts ו-batch transformations, מודל זול יותר יכול להוריד את ההוצאה החודשית בלי לשנות את ממשק האפליקציה. עבור final answers, reasoning מורכב או coding agents, כדאי להשוות את המודל הזול ל-fallback חזק יותר. NextModel מרכז מחיר, הקשר, capability, מקור provider ודוגמאות קוד במקום אחד לפני production.
בסיס מקור: קטלוג מאוצר של NextModel, מחירים ציבוריים של provider ו-OpenRouter metadata כאשר הם זמינים.
Blended price
מועמדים מומלצים llm api זול
התחל מהרשימה הקצרה, בדוק פרומפטים אמיתיים והשווה עלות חודשית לפני ניתוב בפרודקשן.
Mistral-Small-3.2-24B-Instruct-2506 is an updated 24B parameter model from Mistral optimized for instruction following, repetition reduction, and improved function calling. Compared to the 3.1 release, version 3.2 significantly improves accuracy on...
GPT-4o mini is OpenAI's newest model after [GPT-4 Omni](/models/openai/gpt-4o), supporting both text and image inputs with text outputs. As their most advanced small model, it is many multiples more affordable...
Llama 4 Maverick 17B Instruct (128E) is a high-capacity multimodal language model from Meta, built on a mixture-of-experts (MoE) architecture with 128 experts and 17 billion active parameters per forward...
טבלת השוואה
השווה את הרשימה לפי מחיר, ספק, הקשר, יכולות ומקור.
השתמש בתצוגה הזו כשאתה מצמצם רשימת מועמדים לפרודקשן, בונה מדיניות גיבוי או משווה את כלכלת המודלים.
| Model | Provider | Input | Output | Context | Capabilities | Best for | Latency | Status | Source |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek: DeepSeek V4 Flashdeepseek/deepseek-v4-flash | DeepSeek | $0.112 / 1M tokens | $0.224 / 1M tokens | 1M | Tool callingJSON modeLong contextReasoning | low-cost Chinese tasks, long-context summary | 800-2600ms | Catalog | OpenRouter if available |
| Mistral: Mistral Small 3.2 24Bmistralai/mistral-small-3.2-24b-instruct | Mistral AI | $0.1 / 1M tokens | $0.3 / 1M tokens | 128k | Tool callingJSON modeStreamingLow cost | translation, classification | 700-2300ms | Catalog | OpenRouter if available |
| OpenAI: GPT-4o-miniopenai/gpt-4o-mini | OpenRouter | $0.15 / 1M tokens | $0.6 / 1M tokens | 128k | Tool callingVisionJSON modeLong context | low-cost chat, image understanding | 800-2400ms | Catalog | OpenRouter if available |
| Meta: Llama 4 Maverickmeta-llama/llama-4-maverick | Meta | $0.15 / 1M tokens | $0.6 / 1M tokens | 1M | JSON modeLong contextStreamingLow cost | open-model workflows, cost-sensitive long context | 950-2800ms | Catalog | OpenRouter if available |
| Google: Gemini 2.5 Flashgoogle/gemini-2.5-flash | $0.3 / 1M tokens | $2.50 / 1M tokens | 1M | Tool callingVisionJSON modeLong context | long-document summarization, image Q&A | 900-2800ms | Catalog | OpenRouter if available | |
| MoonshotAI: Kimi K2.6moonshotai/kimi-k2.6 | Moonshot AI | $0.73 / 1M tokens | $3.49 / 1M tokens | 262.1k | JSON modeLong contextStreamingTool calling | long Chinese documents, contract review | 1400-4400ms | Catalog | OpenRouter if available |
FAQ
LLM API זול FAQ
איזה מודל הוא הזול ביותר בקטלוג הזה?
זה תלוי בשער החליפין ובאורך ה-output. Doubao Seed 2.0 Mini נשאר אפשרות ה-production הזולה ביותר ב-CNY בקטלוג הזה.
האם צוותים צריכים תמיד לבחור את ה-LLM API הזול ביותר?
לא. מודלים זולים מתאימים לעבודה חוזרת ובסיכון נמוך; עבור final answers, reasoning מורכב ו-coding agents צריך להשוות אותם למודלים חזקים יותר.