模型短名单

适合大文档的长上下文模型 API

按上下文窗口、价格、模型来源和推荐的文档密集型场景比较长上下文模型 API。

浏览模型成本估算

这个短名单适合什么决策？

当提示词包含完整合同、知识库导出、客服历史或大型代码文件时，长上下文模型就很有用。它的权衡点在于更长的提示词会很快抬高成本，所以团队应该在上线前同时比较上下文窗口和输入单价。

来源基础：NextModel 精选目录，以及可用时的 OpenRouter 上下文元数据。 · 更新于 2026-07-01

上下文长度

按价格、提供方、上下文、能力和来源比较候选列表。

在收敛生产短名单、设计兜底策略或比较模型经济性时使用这张表。

模型	提供方	输入	输出	上下文	能力	适用场景	延迟	状态	来源
Google: Gemini 2.5 Progoogle/gemini-2.5-pro	Google	$1.25 / 1M tokens	$10 / 1M tokens	1M	工具调用视觉JSON 模式长上下文	长上下文分析, 视觉工作流	1500-5000ms	目录	OpenRouter（可用时）
Google: Gemini 2.5 Flashgoogle/gemini-2.5-flash	Google	$0.3 / 1M tokens	$2.50 / 1M tokens	1M	工具调用视觉JSON 模式长上下文	长文档摘要, 图像问答	900-2800ms	目录	OpenRouter（可用时）
Meta: Llama 4 Maverickmeta-llama/llama-4-maverick	Meta	$0.15 / 1M tokens	$0.6 / 1M tokens	1M	JSON 模式长上下文流式输出低成本	开源模型工作流, 成本敏感型长上下文	950-2800ms	目录	OpenRouter（可用时）
Anthropic: Claude Opus 4.7anthropic/claude-opus-4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	1M	工具调用JSON 模式长上下文推理	前沿推理, 大型代码库审查	2300-6800ms	目录	OpenRouter（可用时）
Anthropic: Claude Sonnet 4.5anthropic/claude-sonnet-4.5	Anthropic	$3 / 1M tokens	$15 / 1M tokens	1M	工具调用JSON 模式长上下文推理	编码 Agent, 代码审查	1600-4800ms	目录	OpenRouter（可用时）
Qwen: Qwen3 Coder Plusqwen/qwen3-coder-plus	Alibaba Cloud / Qwen	$0.65 / 1M tokens	$3.25 / 1M tokens	1M	工具调用JSON 模式长上下文流式输出	中文工程工作流, 代码生成	1200-3900ms	目录	OpenRouter（可用时）
DeepSeek V4 Flashdeepseek-v4-flash	DeepSeek	$0.112 / 1M tokens	$0.224 / 1M tokens	128k	工具调用JSON 模式长上下文推理	低成本中文任务, 长上下文摘要	700-2200ms	目录	OpenRouter（可用时）
Kimi K2.6kimi-k2-6	Moonshot AI	$0.73 / 1M tokens	$3.49 / 1M tokens	128k	JSON 模式长上下文流式输出	长篇中文文档, 合同审查	1000-3200ms	目录	OpenRouter（可用时）

常见问题

长上下文模型常见问题

上下文窗口越大就一定越好吗？

不是。大上下文适合大输入，但成本、延迟、检索设计和答案质量仍然重要。

全部模型价格计算器查看 OpenAI 兼容快速开始

适合大文档的长上下文模型 API

这个短名单适合什么决策？

推荐的 长上下文模型 候选

Google: Gemini 2.5 Pro

Google: Gemini 2.5 Flash

Meta: Llama 4 Maverick

Anthropic: Claude Opus 4.7

按价格、提供方、上下文、能力和来源比较候选列表。

长上下文模型 常见问题

上下文窗口越大就一定越好吗？

推荐的长上下文模型候选

长上下文模型常见问题