大模型 API 价格全景图 2026.6：12 款主流模型成本实测与选型决策树

LDZKKJ

480人浏览 · 2026-06-14 16:51:34

LDZKKJ · 2026-06-14 16:51:34 发布

大模型 API 价格全景图 2026.6：12 款主流模型成本实测与选型决策树

每个月做一次 LLM 成本复盘，是我这两年雷打不动的习惯。

2026 年 6 月这一轮复盘，我得到了一个反直觉的结论：模型价格本身已经不再是成本的主导变量。同一个业务场景，选错模型可能让账单差 30 倍；选对模型但用错调用方式（不开 Cache、不分级路由、输出不设限），差距同样能到 5-10 倍。

这篇文章把过去一个月我在生产环境踩过的坑、看过的官方公告、做过的 12 款模型横向测算，整理成一份可以直接照着抄的"价格全景 + 选型决策树"。覆盖：

12 款国内外主流模型的 2026 年 6 月最新官方报价（每百万 Token 输入/输出）
4 个真实业务场景的月度成本测算（客服、文档问答、代码生成、多模态分析）
一棵可执行的四问选型决策树
一段统一接口的多模型成本对比 + 动态降级代码

如果你也在为下个季度的 LLM 预算头疼，这篇可以收藏起来当备忘录。

为什么要单独做"价格全景"这件事？过去半年我帮三家不同体量的公司做过 LLM 成本审计，发现一个共同问题：业务方对模型的选择停留在"团队听过哪个就用哪个"的阶段，运维同学拿着每月翻倍的账单发愁，研发同学则被各家厂商的计价规则绕得晕头转向——按 Token、按字符、按字数、按上下文档位、按缓存命中、按 Batch 折扣、按地域……完全没有横向口径。这篇文章的目标就是把所有口径拉平到"每百万 Token 输入/输出"，让你 5 分钟之内就能给出一份能立刻拿去算账的对比表。

12 款主流模型价格全景表

先把核心数据放在最前面。下表数据来源于 2026 年 6 月各厂商官方定价页面（Anthropic、OpenAI、Google AI Pricing、火山方舟、DeepSeek 开放平台、阿里云百炼、智谱开放平台、月之暗面、MiniMax 等），统一换算为"每百万 Token"口径，USD 与 CNY 并列。

计价口径说明：所有价格按"输入价 / 输出价"展示；对于多档计费（如豆包按上下文长度分档、Gemini 3.1 Pro 按 200K 阈值分档），表中取主流档位（豆包 0~32K、Gemini <200K）；缓存命中、Batch 折扣单独说明。

主表：12 款模型一览

#	模型	提供商	输入价	输出价	上下文窗口	多模态	性价比评分
1	GPT-5.4	OpenAI	$2.50 / ¥18	$15.00 / ¥108	1.05M	✅	⭐⭐⭐
2	GPT-5.4-mini	OpenAI	$0.75 / ¥5.4	$4.50 / ¥32	400K	✅	⭐⭐⭐⭐
3	Claude Sonnet 4.6	Anthropic	$3.00 / ¥22	$15.00 / ¥108	1M	✅	⭐⭐⭐
4	Claude Haiku 4.5	Anthropic	$1.00 / ¥7.2	$5.00 / ¥36	200K	✅	⭐⭐⭐⭐
5	Gemini 3 Pro	Google	$2.00 / ¥14.4	$12.00 / ¥86	2M	✅	⭐⭐⭐⭐
6	Gemini 3 Flash	Google	$0.50 / ¥3.6	$3.00 / ¥22	1M	✅	⭐⭐⭐⭐⭐
7	Qwen3.5-Plus	阿里云	$0.40 / ¥2.8	$2.40 / ¥17	1M（分档）	✅	⭐⭐⭐⭐⭐
8	DeepSeek V4 Pro	DeepSeek	¥3 / $0.42	¥6 / $0.84	1M	✅	⭐⭐⭐⭐⭐
9	Doubao-Seed-2.0-pro	字节火山	¥3.2 / $0.45	¥16 / $2.24	256K（分档）	✅	⭐⭐⭐⭐
10	Kimi K2 (K2.6)	月之暗面	$0.95 / ¥6.8	$4.00 / ¥29	262K	✅	⭐⭐⭐⭐
11	GLM-5	智谱	$1.00 / ¥7.2	$3.20 / ¥23	200K	✅	⭐⭐⭐⭐
12	MiniMax abab 7 / M3	MiniMax	$0.30 / ¥2.1	$1.20 / ¥8.4	1M	✅	⭐⭐⭐⭐⭐

汇率口径：人民币按 7.2 折算，与官方页面公布的"人民币计价"会有 ±10% 差异；以官方公告为准。

几个值得单独拎出来说的细节

DeepSeek V4 Pro 的"地板价"：2026 年 5 月 22 日 DeepSeek 官方宣布 V4-Pro API 永久降价为原价 1/4，6 月 1 日生效后，输入（未命中）¥3 / 百万 Token，输出 ¥6 / 百万 Token，输入缓存命中价格仅 ¥0.025——这是目前全球高性能开源模型里最低的一档（来源：DeepSeek 官方公告，2026-05-22）。
Claude 4.5/4.6 的 Prompt Cache：Sonnet 4.6 缓存命中价 = 输入价 × 0.1，即 $0.30 / 百万 Token；缓存写入（5 分钟 TTL）= 输入价 × 1.25。这意味着固定 System Prompt 的应用，实际输入成本可降到标价的 30% 以内（来源：Anthropic 官方 Pricing 文档）。
Gemini 3.1 Pro 的 200K 阈值：≤200K 上下文按 $2/$12 计费，>200K 跳到 $4/$18；做 RAG 时要特别注意拼接 Prompt 的长度，避免不知不觉踩到溢价档（来源：ai.google.dev/pricing）。
豆包的上下文分档：Doubao Seed 2.0 Pro 在 0~32K 是 ¥3.2/¥16，进入 32K~128K 立刻变成 ¥4.8/¥24，128K~256K 是 ¥9.6/¥48。长上下文场景成本会跳档式上涨。
GPT-5.4 的 270K 阈值：与 Gemini 类似，OpenAI 在公告中明确"标准费率适用于上下文长度 <270K"，超过后按高档计费（来源：OpenAI API Pricing 页面）。

按场景分组：5 类典型任务的模型推荐

价格全景表只能告诉你"贵不贵"，真正的选型问题是"在我的场景里贵不贵"。同一款模型，在分类抽取这种短任务里可能是性价比之王，到了长文档 RAG 又会突然踩到分档阈值变成"价格刺客"。所以接下来这一节，我把过去一段时间最常被客户问到的 5 种业务场景拆出来，分别给出"金银铜+备选"四档推荐，每一档都给了明确的选择理由——不要直接照抄，按你自己的业务画像对号入座即可。

下面按 5 种最常见的业务场景分组排序。

场景一：低成本批量任务（分类、抽取、标签）

特征：单次请求短（< 2K 输入 + < 500 输出），日调用量 1-100 万次起步，对推理深度要求低，对单价极度敏感。

排名	推荐模型	输入/输出价	适用理由
🥇	MiniMax abab 7 / M3	$0.30 / $1.20	全表第一低价、200K 上下文、Function Calling 完善
🥈	Gemini 3 Flash	$0.50 / $3.00	Google 基础设施稳定、1M 上下文做长文档分类有奇效
🥉	Qwen3.5-Plus	$0.40 / $2.40	中文分词更精，处理同样语义所需 Token 数更少
备选	DeepSeek V4 Flash	¥1 / ¥2	命中 Cache 后输入价仅 ¥0.1，重复 Prompt 场景神器

场景二：高质量推理（复杂分析、合规审计、专业问答）

特征：单次请求中等长度（2K-20K 输入 + 1K-5K 输出），对一次通过率有硬要求，错一次的人工修复成本远高于多花的 Token 钱。

排名	推荐模型	输入/输出价	适用理由
🥇	Claude Sonnet 4.6	$3.00 / $15.00	推理一致性最强、1M 上下文全段同价、SWE-Bench 第一梯队
🥈	GPT-5.4	$2.50 / $15.00	推理深度领先、Tool Use 体系最成熟
🥉	DeepSeek V4 Pro	$0.42 / $0.84	国产推理天花板、价格仅顶级模型 1/30
备选	Kimi K2.6	$0.95 / $4.00	工程类任务 SWE-Bench Pro 58.6%、长程编码强

场景三：长文档处理（10 万 Token+ 上下文）

特征：合同审查、整本书摘要、整代码库分析；上下文长度本身就是核心竞争力。

排名	推荐模型	上下文	输入/输出价	适用理由
🥇	Gemini 3 Pro	2M	$2.00 / $12.00	业界最大窗口、检索准确率领先
🥈	Claude Sonnet 4.6	1M	$3.00 / $15.00	1M 全段统一价、信息召回精度高
🥉	DeepSeek V4 Pro	1M	$0.42 / $0.84	1M 上下文却保持极低价、性价比无敌
备选	MiniMax M3	1M	$0.30 / $1.20	廉价长文档场景首选

场景四：代码生成（IDE 补全、代码审查、Agent 编程）

特征：长程编码、多轮工具调用、对代码可执行率有硬要求。

排名	推荐模型	输入/输出价	适用理由
🥇	Claude Sonnet 4.6	$3.00 / $15.00	SWE-Bench Verified 80.4%+、IDE 集成生态最完善
🥈	Kimi K2.6	$0.95 / $4.00	SWE-Bench Pro 58.6%、Terminal-Bench 2.0 第一
🥉	DeepSeek V4 Pro	$0.42 / $0.84	Codeforces 3206、开源 SOTA、价格碾压
备选	GPT-5.4	$2.50 / $15.00	Computer Use 能力突出

场景五：多模态理解（图文混合、视频帧理解）

特征：输入包含图片/视频，对图文跨模态一致性有要求。

排名	推荐模型	输入/输出价	适用理由
🥇	Gemini 3 Pro	$2.00 / $12.00	GPQA Diamond 94.3%、视觉推理领先
🥈	GPT-5.4	$2.50 / $15.00	图文混合理解综合能力最稳定
🥉	Doubao-Seed-2.0-pro	¥3.2 / ¥16	中文图文场景最强、价格友好
备选	Claude Sonnet 4.6	$3.00 / $15.00	文档版式还原、表格理解优势

场景外的补充建议：如果你的业务同时跨越多种场景（比如客服里夹带文档问答、代码生成里偶尔出现多模态截图理解），不要试图用"一款全能模型"通吃，而应该在网关层根据请求类型动态路由——这恰恰是下一章决策树要解决的问题。提前埋好"模型可切换、Prompt 可灰度"的抽象，能让你在未来半年的几次降价潮中无痛吃到全部红利。

真实业务场景成本测算

价格表和场景推荐之上，还得回答最实际的问题——月度账单到底多少钱。

我从过去几个客户的真实业务里抽出了 4 个场景，分别测算用不同模型/组合后的月成本。所有计算用同一套基础假设：每月按 30 天算、Token 数按业务实际抽样平均、不计入失败重试。

场景 A：智能客服对话（日均 10 万次）

业务画像：

日调用量：100,000 次
单次输入：平均 800 Token（含 500 Token 固定 System Prompt + 历史对话）
单次输出：平均 200 Token
月总输入：100,000 × 800 × 30 = 24 亿 Token
月总输出：100,000 × 200 × 30 = 6 亿 Token

月成本对比：

方案	输入成本	输出成本	月总成本	备注
全部用 GPT-5.4	$6,000	$9,000	$15,000 (¥10.8w)	顶配方案
全部用 Claude Sonnet 4.6	$7,200	$9,000	$16,200 (¥11.7w)	顶配方案
全部用 GPT-5.4-mini	$1,800	$2,700	$4,500 (¥3.2w)	OpenAI 经济档
全部用 Claude Haiku 4.5	$2,400	$3,000	$5,400 (¥3.9w)	Anthropic 经济档
全部用 Gemini 3 Flash	$1,200	$1,800	$3,000 (¥2.2w)	Google 经济档
全部用 DeepSeek V4 Pro	$1,008	$504	$1,512 (¥1.1w)	国产顶配性价比
全部用 MiniMax abab 7	$720	$720	$1,440 (¥1.0w)	全表最便宜
组合方案：80% MiniMax + 20% Claude Sonnet 4.6 兜底	$1,584	$1,944	$3,528 (¥2.5w)	推荐：性能与成本平衡

+ Prompt Cache 后的极限优化：500 Token 固定 System Prompt 命中缓存（按 Sonnet 4.6 缓存命中价 $0.30/M 计算）

缓存可节省的部分：500 Token × 100,000 × 30 = 15 亿 Token
节省金额：1500 × ($3.0 - $0.3) = $4,050 / 月（仅就 Claude Sonnet 4.6 而言）

结论：客服场景里，从全 GPT-5.4 切到"MiniMax + Claude 兜底"组合，月成本从 ¥10.8w 降到 ¥2.5w，降幅 77%；如果加上 Prompt Cache，可以再省 25%。

踩坑提醒：客服场景最容易被忽视的成本黑洞不是模型本身，而是"上下文越拼越长"。我见过一个项目，初版每轮带 5 轮历史，到后期为了"上下文连贯"硬塞 20 轮，平均单次输入直接从 800 Token 涨到 4200 Token，账单一夜翻 5 倍。建议在路由层加一层"历史会话压缩"——超过 5 轮自动调用小模型摘要，能把输入 Token 量重新压回合理区间。

场景 B：技术文档问答 RAG（日均 5 万次）

业务画像：

日调用量：50,000 次
单次输入：平均 5,000 Token（4,500 Token RAG 召回上下文 + 500 Token 问题）
单次输出：平均 800 Token
月总输入：50,000 × 5,000 × 30 = 75 亿 Token
月总输出：50,000 × 800 × 30 = 12 亿 Token

月成本对比：

方案	输入成本	输出成本	月总成本	备注
Claude Sonnet 4.6	$22,500	$18,000	$40,500 (¥29w)	召回准确率最高
GPT-5.4	$18,750	$18,000	$36,750 (¥26w)	—
Gemini 3 Pro	$15,000	$14,400	$29,400 (¥21w)	200K 阈值内
DeepSeek V4 Pro	$3,150	$1,008	$4,158 (¥3w)	1M 上下文不溢价
Qwen3.5-Plus	$3,000	$2,880	$5,880 (¥4.2w)	中文文档优选
Kimi K2.6	$7,125	$4,800	$11,925 (¥8.6w)	长文档结构化强
组合方案：90% DeepSeek V4 Pro + 10% Claude Sonnet 4.6 复核	$4,335	$2,707	$7,042 (¥5.1w)	推荐

RAG 场景的关键优化点：

Cache 命中是关键：固定的 System Prompt + RAG 模板可达 1,500 Token，按 DeepSeek V4 Pro 缓存命中价 ¥0.025/M Token 计算，仅 System Prompt 部分月成本不到 ¥60。
降级策略：先用 DeepSeek V4 Pro 跑，置信度低（log_prob 阈值）的请求再升级到 Claude Sonnet 4.6 复核。

结论复盘：RAG 是所有场景里最值得做"分级路由"的——因为 80% 的问题答案就藏在召回片段里，便宜模型完全够用；剩下 20% 涉及多片段推理、专业判断的问题，再升级到旗舰模型。从全 Claude Sonnet 4.6 切到"DeepSeek + Claude 复核"组合，节省幅度高达 82%，这是 4 个场景里降本空间最大的一个。如果你的产品还在被"RAG 月账单太高"卡脖子，优先优化这里收益最高。

场景 C：代码生成 / Copilot（日均 1 万次）

业务画像：

日调用量：10,000 次（IDE 补全 + 代码评审混合）
单次输入：平均 3,000 Token（项目上下文 + 用户问题）
单次输出：平均 1,500 Token（代码 + 解释）
月总输入：10,000 × 3,000 × 30 = 9 亿 Token
月总输出：10,000 × 1,500 × 30 = 4.5 亿 Token

月成本对比：

方案	输入成本	输出成本	月总成本	备注
Claude Sonnet 4.6（全量）	$2,700	$6,750	$9,450 (¥6.8w)	代码质量最优
GPT-5.4（全量）	$2,250	$6,750	$9,000 (¥6.5w)	—
DeepSeek V4 Pro（全量）	$378	$378	$756 (¥5.4k)	性价比之王
Kimi K2.6（全量）	$855	$1,800	$2,655 (¥1.9w)	工程类任务强
组合方案：70% DeepSeek V4 Pro（补全）+ 30% Claude Sonnet 4.6（评审）	$1,074	$2,289	$3,363 (¥2.4w)	推荐

额外节省：代码场景的 System Prompt（编码规范、API 签名）几乎完全可缓存，Cache 命中后实际成本可再降 60%。

代码场景的特殊考量：和客服、RAG 不同，代码生成的"错一次"成本极高——一个低质量补全可能让工程师调试两小时，远超 Token 钱本身。所以这里降级一定要谨慎，建议把"低风险任务（如行内补全、单文件 lint 修复）"交给 DeepSeek V4 Pro，把"高风险任务（如多文件重构、关键路径代码评审、生产环境 hotfix）"留给 Claude Sonnet 4.6 或 GPT-5.4。两类任务的判断可以从用户操作的入口和上下文文件数自动识别。

场景 D：多模态文档分析（日均 2000 次）

业务画像：

日调用量：2,000 次（财报、PDF、合同图表理解）
单次输入：平均 15,000 Token（含 2-3 张图片，每张约 1,500 Token）+ 1,500 Token 文本
单次输出：平均 2,000 Token
月总输入：2,000 × 15,000 × 30 = 9 亿 Token
月总输出：2,000 × 2,000 × 30 = 1.2 亿 Token

月成本对比：

方案	输入成本	输出成本	月总成本	备注
GPT-5.4	$2,250	$1,800	$4,050 (¥2.9w)	综合稳定
Claude Sonnet 4.6	$2,700	$1,800	$4,500 (¥3.2w)	版式还原最优
Gemini 3 Pro	$1,800	$1,440	$3,240 (¥2.3w)	视觉推理领先
Doubao-Seed-2.0-pro	$405	$268	$673 (¥4.8k)	中文图表首选
组合方案：80% Doubao + 20% Gemini 3 Pro（复杂图）	$684	$502	$1,186 (¥8.5k)	推荐

多模态的隐藏成本：图片输入的 Token 计费规则在各家之间差异极大——OpenAI 按图片分辨率切 patch（最高一张约 765 Token）、Anthropic 按"长边像素 / 750"折算、Google 是固定 258 Token 一张、字节豆包按视觉块 + 文本 patch 混合计算。一张同样的 1080p 截图，在不同模型里 Token 数能差 3-5 倍，月成本自然也跟着翻倍。做多模态测算的时候，一定要按你真实图片样本跑一遍 Token 计数，不能直接套官方的"参考值"。

四个场景成本对比小结

场景	顶配（GPT-5.4 / Claude）	推荐组合	节省比例
A 客服对话	¥10.8w	¥2.5w	-77%
B 文档 RAG	¥29w	¥5.1w	-82%
C 代码 Copilot	¥6.8w	¥2.4w	-65%
D 多模态分析	¥2.9w	¥8.5k	-71%

核心规律：90% 的场景，"分级路由 + 缓存"组合能稳定砍掉 65%-82% 的成本，且不影响最终交付质量。

选型决策树：四问定终身

到这里你应该已经能感觉到——单纯比价没有意义，必须结合业务特征做决策。下面是我在客户项目里反复验证过的四问决策树，依次回答即可得到推荐方案。

这套决策树的设计原则有三条：第一，每一问都对应一个会直接影响计费档位或可选模型集合的硬条件，回答不需要拍脑袋；第二，问题顺序按"对成本影响从大到小"排列，调用量决定整体策略、延迟决定模型集合、上下文长度决定计费档、多模态决定能力门槛；第三，每个分支的叶子节点都直接对应"全景表"中的具体模型，不会出现"还得回去重新挑"的死循环。

决策树主流程

                    ┌──────────────────────────┐
                    │  Q1: 日均调用量？        │
                    └──────────────────────────┘
                                 │
              ┌──────────────────┼──────────────────┐
              ▼                  ▼                  ▼
         < 1 万次           1 万 - 50 万次       > 50 万次
         (低频)             (中频)              (高频)
              │                  │                  │
              ▼                  ▼                  ▼
        预算次要，选        组合方案，分级       极致成本优化
        最强模型即可        路由是关键            缓存 + 降级是必修
              │                  │                  │
              └──────────────────┴──────────────────┘
                                 │
                                 ▼
                    ┌──────────────────────────┐
                    │  Q2: 延迟敏感吗？        │
                    │  (用户是否在线等待？)    │
                    └──────────────────────────┘
                                 │
                  ┌──────────────┴──────────────┐
                  ▼                             ▼
            敏感（< 2s）                   不敏感（可批量）
                  │                             │
                  ▼                             ▼
            排除 GPT-5.4 等                Batch API 五折
            重推理模型                     首选离线场景
            首选 Flash/Mini/Haiku
                  │                             │
                  └──────────────┬──────────────┘
                                 │
                                 ▼
                    ┌──────────────────────────┐
                    │  Q3: 需要长上下文吗？    │
                    │  (单次输入 > 100K Token？)│
                    └──────────────────────────┘
                                 │
                  ┌──────────────┴──────────────┐
                  ▼                             ▼
              需要                          不需要
                  │                             │
                  ▼                             ▼
            首选 Gemini 3 Pro              所有模型可选
            (2M) / Claude                  按性价比挑
            Sonnet 4.6 (1M)
                  │                             │
                  └──────────────┬──────────────┘
                                 │
                                 ▼
                    ┌──────────────────────────┐
                    │  Q4: 需要多模态吗？      │
                    │  (含图片/视频输入？)     │
                    └──────────────────────────┘
                                 │
                  ┌──────────────┴──────────────┐
                  ▼                             ▼
              需要                          纯文本
                  │                             │
                  ▼                             ▼
            首选 Gemini 3 Pro              进入"语言偏好"
            / GPT-5.4 /                    分支：中文优先
            Doubao-Seed-2.0-pro            选 Qwen3.5/Doubao；
                                           英文/双语选
                                           GPT-5.4-mini/Claude
                                           Haiku 4.5；极致
                                           成本选 MiniMax/
                                           Gemini 3 Flash

决策树的 9 种典型出口

把四个问题串起来，可以得到 9 种最常见的推荐组合，可直接对号入座：

出口编号	业务画像	推荐方案	月度预算量级
A	高频 + 延迟敏感 + 短上下文 + 纯文本	MiniMax M3（主力）+ Claude Haiku 4.5（兜底）	1 千 - 1 万
B	高频 + 延迟敏感 + 短上下文 + 多模态	Doubao-Seed-2.0-pro（主力）+ Gemini 3 Pro（复杂）	5 千 - 3 万
C	高频 + 非敏感 + 短上下文 + 纯文本	DeepSeek V4 Flash + Batch API（5 折）	1 千 - 5 千
D	中频 + 延迟敏感 + 长上下文 + 纯文本	DeepSeek V4 Pro（主力）+ Claude Sonnet 4.6（复核）	1 万 - 10 万
E	中频 + 非敏感 + 长上下文 + 纯文本	Gemini 3 Pro Batch API	5 千 - 5 万
F	中频 + 任意延迟 + 长上下文 + 多模态	Gemini 3 Pro	1 万 - 8 万
G	低频 + 任意延迟 + 任意上下文 + 顶级质量	Claude Sonnet 4.6 / GPT-5.4	千元级
H	代码场景（任意频次）	Claude Sonnet 4.6 + DeepSeek V4 Pro 分级	视调用量定
I	Agent 长程任务	Kimi K2.6 + DeepSeek V4 Pro	视调用量定

怎么使用这张表：先按 Q1 到 Q4 依次回答自己的业务画像，得到一个四元组（例如"中频 + 延迟敏感 + 长上下文 + 纯文本"），再去表里找对应的出口编号（这里就是 D），直接拿推荐方案去做初版落地；上线两周后再回头用真实数据（实际 Token 分布、实际延迟 P95、实际错误率）去校准。注意：决策树是初版方案，不是终版——所有生产环境都需要根据实际流量持续迭代路由策略。

代码示例：统一接口做多模型成本对比 + 动态降级

讲完决策树，给两段可以直接拿去改的 Python 代码：

用统一接口对多个模型做实时成本对比
基于置信度的动态降级路由

示例一：多模型成本对比器

from dataclasses import dataclass
from typing import Dict, List, Optional
from openai import OpenAI

@dataclass
class ModelPricing:
    """模型计价信息（USD per 1M tokens）"""
    name: str
    input_price: float       # 标准输入价
    output_price: float      # 标准输出价
    cached_input_price: float = 0.0  # 缓存命中价
    context_window: int = 128_000


# 2026 年 6 月主流模型价格（数据来源：各厂商官方定价页面）
PRICING_TABLE: Dict[str, ModelPricing] = {
    "gpt-5.4":              ModelPricing("gpt-5.4",              2.50, 15.00, 0.25,  1_050_000),
    "gpt-5.4-mini":         ModelPricing("gpt-5.4-mini",         0.75,  4.50, 0.075,   400_000),
    "claude-sonnet-4-6":    ModelPricing("claude-sonnet-4-6",    3.00, 15.00, 0.30,  1_000_000),
    "claude-haiku-4-5":     ModelPricing("claude-haiku-4-5",     1.00,  5.00, 0.10,    200_000),
    "gemini-3-pro":         ModelPricing("gemini-3-pro",         2.00, 12.00, 0.20,  2_000_000),
    "gemini-3-flash":       ModelPricing("gemini-3-flash",       0.50,  3.00, 0.125, 1_000_000),
    "qwen3.5-plus":         ModelPricing("qwen3.5-plus",         0.40,  2.40, 0.04,  1_000_000),
    "deepseek-v4-pro":      ModelPricing("deepseek-v4-pro",      0.42,  0.84, 0.0035, 1_000_000),
    "doubao-seed-2.0-pro":  ModelPricing("doubao-seed-2.0-pro",  0.45,  2.24, 0.09,    256_000),
    "kimi-k2.6":            ModelPricing("kimi-k2.6",            0.95,  4.00, 0.16,    262_000),
    "glm-5":                ModelPricing("glm-5",                1.00,  3.20, 0.10,    200_000),
    "minimax-m3":           ModelPricing("minimax-m3",           0.30,  1.20, 0.03,  1_000_000),
}


def estimate_request_cost(
    model: str,
    input_tokens: int,
    output_tokens: int,
    cached_tokens: int = 0,
) -> Dict:
    """估算单次请求成本"""
    pricing = PRICING_TABLE[model]
    
    # 普通输入成本（未命中缓存的部分）
    non_cached_input = max(0, input_tokens - cached_tokens)
    input_cost = (non_cached_input / 1_000_000) * pricing.input_price
    
    # 缓存输入成本
    cached_cost = (cached_tokens / 1_000_000) * pricing.cached_input_price
    
    # 输出成本
    output_cost = (output_tokens / 1_000_000) * pricing.output_price
    
    total = input_cost + cached_cost + output_cost
    
    return {
        "model": model,
        "input_cost": round(input_cost, 6),
        "cached_cost": round(cached_cost, 6),
        "output_cost": round(output_cost, 6),
        "total_cost_usd": round(total, 6),
        "total_cost_cny": round(total * 7.2, 4),
    }


def compare_models_cost(
    input_tokens: int,
    output_tokens: int,
    daily_calls: int,
    cached_tokens: int = 0,
    candidates: Optional[List[str]] = None,
) -> List[Dict]:
    """对比候选模型的月度成本，按总成本升序"""
    if candidates is None:
        candidates = list(PRICING_TABLE.keys())
    
    results = []
    for model in candidates:
        single = estimate_request_cost(model, input_tokens, output_tokens, cached_tokens)
        monthly_usd = single["total_cost_usd"] * daily_calls * 30
        results.append({
            "model": model,
            "per_call_usd": single["total_cost_usd"],
            "monthly_usd": round(monthly_usd, 2),
            "monthly_cny": round(monthly_usd * 7.2, 2),
            "context_window": PRICING_TABLE[model].context_window,
        })
    
    return sorted(results, key=lambda x: x["monthly_usd"])


# 用法示例：客服场景（日 10w 次 / 单次 800 in + 200 out / Cache 500 token）
if __name__ == "__main__":
    ranking = compare_models_cost(
        input_tokens=800,
        output_tokens=200,
        daily_calls=100_000,
        cached_tokens=500,
        candidates=[
            "gpt-5.4", "gpt-5.4-mini", "claude-sonnet-4-6",
            "deepseek-v4-pro", "minimax-m3", "gemini-3-flash",
        ],
    )
    
    print(f"{'Model':<22} {'Per-Call($)':>12} {'Monthly($)':>12} {'Monthly(¥)':>14}")
    print("-" * 64)
    for r in ranking:
        print(f"{r['model']:<22} {r['per_call_usd']:>12.6f} "
              f"{r['monthly_usd']:>12,.2f} {r['monthly_cny']:>14,.2f}")

跑一遍这段代码，会得到一份按月成本升序的排行榜，能直观看出"省一个量级"的可能性在哪里。

示例二：基于置信度的动态降级路由

生产环境的核心思路：先用便宜模型试，置信度不够再升级。这套机制的关键不是降级本身，而是"什么时候判断置信度不够"。

import asyncio
from typing import List, Dict, Any, Optional
from dataclasses import dataclass, field
from openai import AsyncOpenAI


@dataclass
class RoutingDecision:
    """单次路由决策结果"""
    final_model: str
    upgraded_from: Optional[str] = None
    total_cost_usd: float = 0.0
    attempts: List[Dict] = field(default_factory=list)


class TieredRouter:
    """
    分级降级路由器
    
    策略：按预设的"模型阶梯"依次尝试，每次评估输出质量，
          不达标则升级到下一档，达标则提前返回。
    """
    
    # 默认三档阶梯：极致便宜 → 中端 → 旗舰
    DEFAULT_TIERS = [
        ("minimax-m3",        {"max_tokens": 800,  "temperature": 0.3}),
        ("deepseek-v4-pro",   {"max_tokens": 1200, "temperature": 0.3}),
        ("claude-sonnet-4-6", {"max_tokens": 2000, "temperature": 0.3}),
    ]
    
    def __init__(
        self,
        base_url: str,
        api_key: str,
        tiers: Optional[List] = None,
        confidence_threshold: float = 0.7,
    ):
        self.client = AsyncOpenAI(base_url=base_url, api_key=api_key)
        self.tiers = tiers or self.DEFAULT_TIERS
        self.confidence_threshold = confidence_threshold
    
    async def route(
        self,
        messages: List[Dict[str, str]],
        evaluator: Optional[callable] = None,
    ) -> RoutingDecision:
        """
        按阶梯依次尝试，直到 evaluator 判定满足要求
        
        evaluator: 接收 response_content，返回 0~1 的置信度
        """
        evaluator = evaluator or self._default_evaluator
        decision = RoutingDecision(final_model="")
        
        for tier_idx, (model, params) in enumerate(self.tiers):
            try:
                response = await self.client.chat.completions.create(
                    model=model,
                    messages=messages,
                    **params,
                )
                content = response.choices[0].message.content
                usage = response.usage
                
                # 估算本次调用成本
                pricing = PRICING_TABLE[model]
                cost = (
                    (usage.prompt_tokens / 1_000_000) * pricing.input_price +
                    (usage.completion_tokens / 1_000_000) * pricing.output_price
                )
                
                # 评估输出质量
                confidence = await evaluator(content, messages)
                
                attempt = {
                    "tier": tier_idx,
                    "model": model,
                    "input_tokens": usage.prompt_tokens,
                    "output_tokens": usage.completion_tokens,
                    "cost_usd": round(cost, 6),
                    "confidence": round(confidence, 3),
                    "content_preview": content[:120],
                }
                decision.attempts.append(attempt)
                decision.total_cost_usd += cost
                
                if confidence >= self.confidence_threshold:
                    decision.final_model = model
                    if tier_idx > 0:
                        decision.upgraded_from = self.tiers[0][0]
                    return decision
                
            except Exception as e:
                decision.attempts.append({
                    "tier": tier_idx, "model": model, "error": str(e)
                })
                continue
        
        # 所有档位都不达标，返回最后一档结果
        decision.final_model = self.tiers[-1][0]
        return decision
    
    async def _default_evaluator(
        self,
        content: str,
        messages: List[Dict],
    ) -> float:
        """
        默认置信度评估器：
        - 输出长度过短 → 低置信度
        - 包含"我不知道"、"无法回答"等关键词 → 低置信度
        - 否则给中等置信度
        
        生产环境建议替换为：
        - 业务特定的规则匹配
        - 用小模型做 judge（如 Haiku 4.5 评分）
        - 基于 log_probs 的不确定性估计
        """
        if not content or len(content) < 30:
            return 0.2
        
        low_conf_markers = ["不知道", "无法回答", "不清楚", "抱歉", "sorry"]
        if any(marker in content.lower() for marker in low_conf_markers):
            return 0.4
        
        return 0.85


# 用法示例
async def main():
    router = TieredRouter(
        base_url="https://your-unified-endpoint/v1",
        api_key="your-key",
        confidence_threshold=0.7,
    )
    
    decision = await router.route(
        messages=[
            {"role": "system", "content": "你是一名资深 Python 工程师。"},
            {"role": "user", "content": "解释一下 GIL 在 Python 3.13 中的变化。"},
        ],
    )
    
    print(f"✓ 最终采用模型：{decision.final_model}")
    print(f"✓ 升级路径：    {decision.upgraded_from} → {decision.final_model}")
    print(f"✓ 总成本：      ${decision.total_cost_usd:.6f}")
    print(f"✓ 尝试详情：")
    for a in decision.attempts:
        print(f"  - tier{a['tier']:>2} {a['model']:<22} "
              f"conf={a.get('confidence', 'n/a')} cost=${a.get('cost_usd', 0):.6f}")


if __name__ == "__main__":
    asyncio.run(main())

这段路由器在我自己的项目里跑了 3 个月，命中 80% 的请求停在第一档（MiniMax M3），15% 升到 DeepSeek V4 Pro，5% 才会升到 Claude Sonnet 4.6。综合月成本只有"全用 Claude"的 18%。

写在最后：3 个反直觉的发现

回看这次 2026 年 6 月的全景梳理，有 3 个结论值得抄在小本本上：

结论一：旗舰模型不再是"贵就完事"，而是"性价比也在变好"
Anthropic 在过去一年把 Claude API 价格降了约 40%；OpenAI 的 GPT-5.4-mini 输入价 $0.75 比上一代 GPT-4o-mini 在能力上提升了一个数量级；Google 把 Gemini 3 Pro 推到了 $2.0/$12.0 的位置；甚至 DeepSeek V4 Pro 在 4 月连续两次降价后输出价仅 ¥6/百万 Token。整个市场都在往"性能涨、价格降"的方向走。

结论二：缓存（Prompt Cache）正在成为新的成本竞争力
2026 年几乎所有主流模型都标配了 Cache 机制：Anthropic 命中价 = 输入价 × 0.1；OpenAI 命中价 = 输入价 × 0.1；DeepSeek 命中价低至原价的 1/40；Google Gemini 缓存命中可省 90%。会不会用缓存，比选哪个模型更能拉开 5-10 倍的成本差距。

结论三：单一模型策略基本可以淘汰了
2026 年的最佳实践已经不是"选一个最好的模型"，而是"用决策树编排一组模型"。我把 4 个场景的真实数据拍在你面前——分级路由能稳定砍掉 65%-82% 的成本，且不影响最终交付质量。这个时代，架构能力 > 模型选择。

下一篇我会写《分级路由架构实战：从 0 到 1 搭建一个生产级 LLM 路由器》，包括 Cache 预热、降级链路、灰度切换、故障熔断这些工程细节。如果你对哪个场景的成本测算有更深的需求，欢迎在评论区留言。

最后再补一句长期判断：站在 2026 年中这个时间点回头看，过去 18 个月模型 API 单价的年化降幅约在 60%-70%。如果这个曲线继续延续，明年此时旗舰模型的价格会进一步压到 GPT-5.4-mini 这一档，而最便宜的"长尾模型"价格则会继续向"接近免费"靠拢。在这种节奏下，任何把成本优化建立在"赌某款模型不降价"基础上的方案都是脆弱的——真正能穿越周期的，只有一套模型无关、可热切换、可灰度、可观测的统一调度层。这也是我会持续写下去的方向。

相关资源：

点点词元 —— 一个 Key 调用全球主流大模型，本文涉及的 12 款国内外模型均可统一调用，提供 OpenAI 兼容协议。
模型广场：https://www.datatoken.vip

本文价格数据基于 2026 年 6 月官方公告整理，实际以官方为准；代码基于实际生产经验整理，供技术参考。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Dify 接入蓝耘 MaaS：基于智能客服分流模板搭建一个客服助手

AI Agent技术社区

2026年企业级大模型API聚合平台选型指南：协议兼容、稳定性与治理能力深度解析

因此，在企业级场景下，选择合适的API聚合平台已经不再只是采购问题，而是一项长期架构决策。| 平台| 模型覆盖规模 | 协议兼容能力| 生产稳定性| 企业管理能力| 成本管理特点| 适用场景|| 星链4SAPI| 480+| OpenAI、Anthropic、Gemini原生兼容 | 企业级可用性设计 | 多账号、审计、额度管理 | 提供细粒度Token统计 | 多模型生产环境|