DeepSeek V4 Flash is an efficiency-optimized Mixture-of-Experts model from DeepSeek with 284B total parameters and 13B activated parameters, supporting a 1M-token context window. It is designed for fast inference and...
Meilleurs modeles API LLM a bas cout pour produits sensibles au budget
Comparez les modeles LLM a bas cout par prix d'entree, prix de sortie, contexte, capacites, source et adequation a la production.
A quoi sert cette selection ?
Choisir un LLM API a bas cout doit commencer par la forme du workload, pas seulement par le tarif affiche le plus faible. Pour la classification, les resumes, le routage, les brouillons support et les transformations par lot, un modele moins cher peut reduire le cout mensuel sans changer l'interface de votre application. Pour les reponses finales, le raisonnement complexe ou les agents de code, les equipes devraient benchmarker un modele economique face a un fallback plus puissant. NextModel rassemble prix, contexte, capacites, source fournisseur et exemples de code au meme endroit pour permettre ce compromis avant la mise en production.
Base de source: Catalogue selectionne NextModel, prix publics des fournisseurs et metadonnees OpenRouter quand elles sont disponibles.
Blended price
Candidats recommandes llm api a bas cout
Commencez par cette selection, puis testez de vrais prompts et comparez le cout mensuel avant le routage de production.
Mistral-Small-3.2-24B-Instruct-2506 is an updated 24B parameter model from Mistral optimized for instruction following, repetition reduction, and improved function calling. Compared to the 3.1 release, version 3.2 significantly improves accuracy on...
GPT-4o mini is OpenAI's newest model after [GPT-4 Omni](/models/openai/gpt-4o), supporting both text and image inputs with text outputs. As their most advanced small model, it is many multiples more affordable...
Llama 4 Maverick 17B Instruct (128E) is a high-capacity multimodal language model from Meta, built on a mixture-of-experts (MoE) architecture with 128 experts and 17 billion active parameters per forward...
Tableau comparatif
Comparez cette selection par prix, fournisseur, contexte, capacites et source.
Utilisez cette vue pour reduire une shortlist de production, construire une politique de repli ou comparer l'economie des modeles.
| Model | Provider | Input | Output | Context | Capabilities | Best for | Latency | Status | Source |
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek: DeepSeek V4 Flashdeepseek/deepseek-v4-flash | DeepSeek | $0.112 / 1M tokens | $0.224 / 1M tokens | 1M | Tool callingJSON modeLong contextReasoning | low-cost Chinese tasks, long-context summary | 800-2600ms | Catalog | OpenRouter if available |
| Mistral: Mistral Small 3.2 24Bmistralai/mistral-small-3.2-24b-instruct | Mistral AI | $0.1 / 1M tokens | $0.3 / 1M tokens | 128k | Tool callingJSON modeStreamingLow cost | translation, classification | 700-2300ms | Catalog | OpenRouter if available |
| OpenAI: GPT-4o-miniopenai/gpt-4o-mini | OpenRouter | $0.15 / 1M tokens | $0.6 / 1M tokens | 128k | Tool callingVisionJSON modeLong context | low-cost chat, image understanding | 800-2400ms | Catalog | OpenRouter if available |
| Meta: Llama 4 Maverickmeta-llama/llama-4-maverick | Meta | $0.15 / 1M tokens | $0.6 / 1M tokens | 1M | JSON modeLong contextStreamingLow cost | open-model workflows, cost-sensitive long context | 950-2800ms | Catalog | OpenRouter if available |
| Google: Gemini 2.5 Flashgoogle/gemini-2.5-flash | $0.3 / 1M tokens | $2.50 / 1M tokens | 1M | Tool callingVisionJSON modeLong context | long-document summarization, image Q&A | 900-2800ms | Catalog | OpenRouter if available | |
| MoonshotAI: Kimi K2.6moonshotai/kimi-k2.6 | Moonshot AI | $0.73 / 1M tokens | $3.49 / 1M tokens | 262.1k | JSON modeLong contextStreamingTool calling | long Chinese documents, contract review | 1400-4400ms | Catalog | OpenRouter if available |
FAQ
LLM API a bas cout FAQ
Quel est le modele le moins cher de ce catalogue ?
L'option la moins chere depend du taux de change et de la longueur de sortie. Doubao Seed 2.0 Mini reste l'entree de production CNY la moins couteuse de ce catalogue.
Faut-il toujours choisir l'API LLM la moins chere ?
Non. Les modeles bon marche conviennent aux taches repetables et peu risquees ; pour les reponses finales, le raisonnement complexe et les agents de code, il faut comparer avec des modeles plus solides.