模型榜单

模型榜单。

围绕低价、中文、编码、视觉、Agent 和 OpenRouter 替代等决策场景打造的短名单，并附带来源标签和实际成本治理语境。

团队应该如何使用这些 AI 模型榜单？

这些榜单是面向具体决策场景的候选短名单，而不是绝对排行榜。每个页面按低成本、中文、编码、视觉、长上下文、Agent 或 OpenRouter 替代等工作负载聚合模型，并配上成本和来源上下文。

综合价格

适合成本敏感产品的低价 LLM API 模型

从输入价格、输出价格、上下文长度、能力、来源和生产适配度来比较低成本 LLM API 模型。

打开榜单

Doubao Seed 2.0 Mini

中文问答, 低成本通用对话, 多模态理解

Volcengine综合价格: $0.318 / 100万 tokens

DeepSeek V4 Flash

低成本中文任务, 长上下文摘要, 批量代码辅助

DeepSeek综合价格: $0.336 / 100万 tokens

Mistral: Mistral Small 3.2 24B

翻译, 分类, 短文摘要

Mistral AI综合价格: $0.4 / 100万 tokens

DeepSeek V4 Flash

high-volume chat, lightweight agent steps, 分类

DeepSeek综合价格: $0.434 / 100万 tokens

Doubao Seed 2.0 Lite

high-volume chat, 分类, lightweight agent steps

Volcengine综合价格: $0.608 / 100万 tokens

OpenAI: GPT-4o-mini

低成本聊天, 图像理解, 分类

OpenRouter综合价格: $0.75 / 100万 tokens

匹配分

适合开发者团队的中文 LLM API 模型

比较国内与全球提供方中的中文 LLM API 候选，包括定价、上下文、延迟估算和最佳使用场景。

打开榜单

DeepSeek: R1

中文推理, 数学, 分析

DeepSeek匹配分: 89/100

Doubao Seed 2.0 Mini

中文问答, 低成本通用对话, 多模态理解

Volcengine匹配分: 88/100

Qwen: Qwen3 Coder Plus

中文工程工作流, 代码生成, 代码库问答

Alibaba Cloud / Qwen匹配分: 87/100

DeepSeek V4 Pro

complex reasoning, agentic coding, production chat

DeepSeek匹配分: 87/100

Qwen: Qwen3 Max

中文 Agent 工作流, 商业分析, 结构化输出

Alibaba Cloud / Qwen匹配分: 86/100

Doubao Seed 2.0 Pro

general-purpose reasoning, multimodal analysis, high-stakes production chat

Volcengine匹配分: 86/100

匹配分

适合 Agent 与代码审查的编码模型 API

按上下文长度、工具支持、JSON 输出、延迟估算、价格和生产角色来比较编码向模型 API。

打开榜单

Anthropic: Claude Opus 4.7

前沿推理, 大型代码库审查, 策略分析

Anthropic匹配分: 96/100

Anthropic: Claude Sonnet 4.5

编码 Agent, 代码审查, 复杂写作

Anthropic匹配分: 93/100

DeepSeek: R1

中文推理, 数学, 分析

DeepSeek匹配分: 89/100

Qwen: Qwen3 Coder Plus

中文工程工作流, 代码生成, 代码库问答

Alibaba Cloud / Qwen匹配分: 87/100

Doubao Seed 2.0 Code

agentic coding, repository-scale refactors, long-context code review

Volcengine匹配分: 85/100

Kimi K2.7 Code

agentic coding, 代码审查, long-context refactors

Moonshot AI匹配分: 84/100

匹配分

适合图像理解的视觉模型 API

比较支持视觉的模型 API，适用于图像理解、文档截图、多模态支持工作流和成本敏感路由。

打开榜单

Anthropic: Claude Opus 4.7

前沿推理, 大型代码库审查, 策略分析

Anthropic匹配分: 96/100

Anthropic: Claude Sonnet 4.5

编码 Agent, 代码审查, 复杂写作

Anthropic匹配分: 93/100

Google: Gemini 2.5 Pro

长上下文分析, 视觉工作流, 科学推理

Google匹配分: 91/100

Doubao Seed 2.0 Mini

中文问答, 低成本通用对话, 多模态理解

Volcengine匹配分: 88/100

Google: Gemini 2.5 Flash

长文档摘要, 图像问答, 快速多模态路由

Google匹配分: 86/100

Doubao Seed 2.0 Pro

general-purpose reasoning, multimodal analysis, high-stakes production chat

Volcengine匹配分: 86/100

目录活跃度

需要成本治理的团队可选的 OpenRouter 替代方案

比较类似 OpenRouter 的多模型接入、成本治理、国内提供方覆盖、BYOK、预算控制和团队用量报表。

打开榜单

OpenAI: GPT-4o-mini

低成本聊天, 图像理解, 分类

OpenRouter目录活跃度: 93/100

Anthropic: Claude Sonnet 4.5

编码 Agent, 代码审查, 复杂写作

Anthropic目录活跃度: 92/100

Anthropic: Claude Opus 4.7

前沿推理, 大型代码库审查, 策略分析

Anthropic目录活跃度: 90/100

DeepSeek: R1

中文推理, 数学, 分析

DeepSeek目录活跃度: 89/100

Google: Gemini 2.5 Pro

长上下文分析, 视觉工作流, 科学推理

Google目录活跃度: 88/100

Google: Gemini 2.5 Flash

长文档摘要, 图像问答, 快速多模态路由

Google目录活跃度: 86/100

上下文长度

适合大文档的长上下文模型 API

按上下文窗口、价格、模型来源和推荐的文档密集型场景比较长上下文模型 API。

打开榜单

Google: Gemini 2.5 Pro

长上下文分析, 视觉工作流, 科学推理

Google上下文长度: 1049k tokens

Google: Gemini 2.5 Flash

长文档摘要, 图像问答, 快速多模态路由

Google上下文长度: 1049k tokens

Meta: Llama 4 Maverick

开源模型工作流, 成本敏感型长上下文, 分类

Meta上下文长度: 1049k tokens

Anthropic: Claude Opus 4.7

前沿推理, 大型代码库审查, 策略分析

Anthropic上下文长度: 1000k tokens

Anthropic: Claude Sonnet 4.5

编码 Agent, 代码审查, 复杂写作

Anthropic上下文长度: 1000k tokens

Qwen: Qwen3 Coder Plus

中文工程工作流, 代码生成, 代码库问答

Alibaba Cloud / Qwen上下文长度: 1000k tokens

匹配分

适合工具调用工作流的 Agent 模型 API

比较需要工具调用、JSON 模式、长上下文和预算策略的 Agent 工作流模型 API。

打开榜单

Anthropic: Claude Opus 4.7

前沿推理, 大型代码库审查, 策略分析

Anthropic匹配分: 96/100

Anthropic: Claude Sonnet 4.5

编码 Agent, 代码审查, 复杂写作

Anthropic匹配分: 93/100

Google: Gemini 2.5 Pro

长上下文分析, 视觉工作流, 科学推理

Google匹配分: 91/100

Qwen: Qwen3 Coder Plus

中文工程工作流, 代码生成, 代码库问答

Alibaba Cloud / Qwen匹配分: 87/100

DeepSeek V4 Pro

complex reasoning, agentic coding, production chat

DeepSeek匹配分: 87/100

Qwen: Qwen3 Max

中文 Agent 工作流, 商业分析, 结构化输出

Alibaba Cloud / Qwen匹配分: 86/100