大模型 API 价格全景图 2026.6:12 款主流模型成本实测与选型决策树
大模型 API 价格全景图 2026.6:12 款主流模型成本实测与选型决策树
每个月做一次 LLM 成本复盘,是我这两年雷打不动的习惯。
2026 年 6 月这一轮复盘,我得到了一个反直觉的结论:模型价格本身已经不再是成本的主导变量。同一个业务场景,选错模型可能让账单差 30 倍;选对模型但用错调用方式(不开 Cache、不分级路由、输出不设限),差距同样能到 5-10 倍。
这篇文章把过去一个月我在生产环境踩过的坑、看过的官方公告、做过的 12 款模型横向测算,整理成一份可以直接照着抄的"价格全景 + 选型决策树"。覆盖:
- 12 款国内外主流模型的 2026 年 6 月最新官方报价(每百万 Token 输入/输出)
- 4 个真实业务场景的月度成本测算(客服、文档问答、代码生成、多模态分析)
- 一棵可执行的四问选型决策树
- 一段统一接口的多模型成本对比 + 动态降级代码
如果你也在为下个季度的 LLM 预算头疼,这篇可以收藏起来当备忘录。
为什么要单独做"价格全景"这件事?过去半年我帮三家不同体量的公司做过 LLM 成本审计,发现一个共同问题:业务方对模型的选择停留在"团队听过哪个就用哪个"的阶段,运维同学拿着每月翻倍的账单发愁,研发同学则被各家厂商的计价规则绕得晕头转向——按 Token、按字符、按字数、按上下文档位、按缓存命中、按 Batch 折扣、按地域……完全没有横向口径。这篇文章的目标就是把所有口径拉平到"每百万 Token 输入/输出",让你 5 分钟之内就能给出一份能立刻拿去算账的对比表。
12 款主流模型价格全景表
先把核心数据放在最前面。下表数据来源于 2026 年 6 月各厂商官方定价页面(Anthropic、OpenAI、Google AI Pricing、火山方舟、DeepSeek 开放平台、阿里云百炼、智谱开放平台、月之暗面、MiniMax 等),统一换算为"每百万 Token"口径,USD 与 CNY 并列。
计价口径说明:所有价格按"输入价 / 输出价"展示;对于多档计费(如豆包按上下文长度分档、Gemini 3.1 Pro 按 200K 阈值分档),表中取主流档位(豆包 0~32K、Gemini <200K);缓存命中、Batch 折扣单独说明。
主表:12 款模型一览
| # | 模型 | 提供商 | 输入价 | 输出价 | 上下文窗口 | 多模态 | 性价比评分 |
|---|---|---|---|---|---|---|---|
| 1 | GPT-5.4 | OpenAI | $2.50 / ¥18 | $15.00 / ¥108 | 1.05M | ✅ | ⭐⭐⭐ |
| 2 | GPT-5.4-mini | OpenAI | $0.75 / ¥5.4 | $4.50 / ¥32 | 400K | ✅ | ⭐⭐⭐⭐ |
| 3 | Claude Sonnet 4.6 | Anthropic | $3.00 / ¥22 | $15.00 / ¥108 | 1M | ✅ | ⭐⭐⭐ |
| 4 | Claude Haiku 4.5 | Anthropic | $1.00 / ¥7.2 | $5.00 / ¥36 | 200K | ✅ | ⭐⭐⭐⭐ |
| 5 | Gemini 3 Pro | $2.00 / ¥14.4 | $12.00 / ¥86 | 2M | ✅ | ⭐⭐⭐⭐ | |
| 6 | Gemini 3 Flash | $0.50 / ¥3.6 | $3.00 / ¥22 | 1M | ✅ | ⭐⭐⭐⭐⭐ | |
| 7 | Qwen3.5-Plus | 阿里云 | $0.40 / ¥2.8 | $2.40 / ¥17 | 1M(分档) | ✅ | ⭐⭐⭐⭐⭐ |
| 8 | DeepSeek V4 Pro | DeepSeek | ¥3 / $0.42 | ¥6 / $0.84 | 1M | ✅ | ⭐⭐⭐⭐⭐ |
| 9 | Doubao-Seed-2.0-pro | 字节火山 | ¥3.2 / $0.45 | ¥16 / $2.24 | 256K(分档) | ✅ | ⭐⭐⭐⭐ |
| 10 | Kimi K2 (K2.6) | 月之暗面 | $0.95 / ¥6.8 | $4.00 / ¥29 | 262K | ✅ | ⭐⭐⭐⭐ |
| 11 | GLM-5 | 智谱 | $1.00 / ¥7.2 | $3.20 / ¥23 | 200K | ✅ | ⭐⭐⭐⭐ |
| 12 | MiniMax abab 7 / M3 | MiniMax | $0.30 / ¥2.1 | $1.20 / ¥8.4 | 1M | ✅ | ⭐⭐⭐⭐⭐ |
汇率口径:人民币按 7.2 折算,与官方页面公布的"人民币计价"会有 ±10% 差异;以官方公告为准。
几个值得单独拎出来说的细节
- DeepSeek V4 Pro 的"地板价":2026 年 5 月 22 日 DeepSeek 官方宣布 V4-Pro API 永久降价为原价 1/4,6 月 1 日生效后,输入(未命中)¥3 / 百万 Token,输出 ¥6 / 百万 Token,输入缓存命中价格仅 ¥0.025——这是目前全球高性能开源模型里最低的一档(来源:DeepSeek 官方公告,2026-05-22)。
- Claude 4.5/4.6 的 Prompt Cache:Sonnet 4.6 缓存命中价 = 输入价 × 0.1,即 $0.30 / 百万 Token;缓存写入(5 分钟 TTL)= 输入价 × 1.25。这意味着固定 System Prompt 的应用,实际输入成本可降到标价的 30% 以内(来源:Anthropic 官方 Pricing 文档)。
- Gemini 3.1 Pro 的 200K 阈值:≤200K 上下文按 $2/$12 计费,>200K 跳到 $4/$18;做 RAG 时要特别注意拼接 Prompt 的长度,避免不知不觉踩到溢价档(来源:ai.google.dev/pricing)。
- 豆包的上下文分档:Doubao Seed 2.0 Pro 在 0~32K 是 ¥3.2/¥16,进入 32K~128K 立刻变成 ¥4.8/¥24,128K~256K 是 ¥9.6/¥48。长上下文场景成本会跳档式上涨。
- GPT-5.4 的 270K 阈值:与 Gemini 类似,OpenAI 在公告中明确"标准费率适用于上下文长度 <270K",超过后按高档计费(来源:OpenAI API Pricing 页面)。
按场景分组:5 类典型任务的模型推荐
价格全景表只能告诉你"贵不贵",真正的选型问题是"在我的场景里贵不贵"。同一款模型,在分类抽取这种短任务里可能是性价比之王,到了长文档 RAG 又会突然踩到分档阈值变成"价格刺客"。所以接下来这一节,我把过去一段时间最常被客户问到的 5 种业务场景拆出来,分别给出"金银铜+备选"四档推荐,每一档都给了明确的选择理由——不要直接照抄,按你自己的业务画像对号入座即可。
下面按 5 种最常见的业务场景分组排序。
场景一:低成本批量任务(分类、抽取、标签)
特征:单次请求短(< 2K 输入 + < 500 输出),日调用量 1-100 万次起步,对推理深度要求低,对单价极度敏感。
| 排名 | 推荐模型 | 输入/输出价 | 适用理由 |
|---|---|---|---|
| 🥇 | MiniMax abab 7 / M3 | $0.30 / $1.20 | 全表第一低价、200K 上下文、Function Calling 完善 |
| 🥈 | Gemini 3 Flash | $0.50 / $3.00 | Google 基础设施稳定、1M 上下文做长文档分类有奇效 |
| 🥉 | Qwen3.5-Plus | $0.40 / $2.40 | 中文分词更精,处理同样语义所需 Token 数更少 |
| 备选 | DeepSeek V4 Flash | ¥1 / ¥2 | 命中 Cache 后输入价仅 ¥0.1,重复 Prompt 场景神器 |
场景二:高质量推理(复杂分析、合规审计、专业问答)
特征:单次请求中等长度(2K-20K 输入 + 1K-5K 输出),对一次通过率有硬要求,错一次的人工修复成本远高于多花的 Token 钱。
| 排名 | 推荐模型 | 输入/输出价 | 适用理由 |
|---|---|---|---|
| 🥇 | Claude Sonnet 4.6 | $3.00 / $15.00 | 推理一致性最强、1M 上下文全段同价、SWE-Bench 第一梯队 |
| 🥈 | GPT-5.4 | $2.50 / $15.00 | 推理深度领先、Tool Use 体系最成熟 |
| 🥉 | DeepSeek V4 Pro | $0.42 / $0.84 | 国产推理天花板、价格仅顶级模型 1/30 |
| 备选 | Kimi K2.6 | $0.95 / $4.00 | 工程类任务 SWE-Bench Pro 58.6%、长程编码强 |
场景三:长文档处理(10 万 Token+ 上下文)
特征:合同审查、整本书摘要、整代码库分析;上下文长度本身就是核心竞争力。
| 排名 | 推荐模型 | 上下文 | 输入/输出价 | 适用理由 |
|---|---|---|---|---|
| 🥇 | Gemini 3 Pro | 2M | $2.00 / $12.00 | 业界最大窗口、检索准确率领先 |
| 🥈 | Claude Sonnet 4.6 | 1M | $3.00 / $15.00 | 1M 全段统一价、信息召回精度高 |
| 🥉 | DeepSeek V4 Pro | 1M | $0.42 / $0.84 | 1M 上下文却保持极低价、性价比无敌 |
| 备选 | MiniMax M3 | 1M | $0.30 / $1.20 | 廉价长文档场景首选 |
场景四:代码生成(IDE 补全、代码审查、Agent 编程)
特征:长程编码、多轮工具调用、对代码可执行率有硬要求。
| 排名 | 推荐模型 | 输入/输出价 | 适用理由 |
|---|---|---|---|
| 🥇 | Claude Sonnet 4.6 | $3.00 / $15.00 | SWE-Bench Verified 80.4%+、IDE 集成生态最完善 |
| 🥈 | Kimi K2.6 | $0.95 / $4.00 | SWE-Bench Pro 58.6%、Terminal-Bench 2.0 第一 |
| 🥉 | DeepSeek V4 Pro | $0.42 / $0.84 | Codeforces 3206、开源 SOTA、价格碾压 |
| 备选 | GPT-5.4 | $2.50 / $15.00 | Computer Use 能力突出 |
场景五:多模态理解(图文混合、视频帧理解)
特征:输入包含图片/视频,对图文跨模态一致性有要求。
| 排名 | 推荐模型 | 输入/输出价 | 适用理由 |
|---|---|---|---|
| 🥇 | Gemini 3 Pro | $2.00 / $12.00 | GPQA Diamond 94.3%、视觉推理领先 |
| 🥈 | GPT-5.4 | $2.50 / $15.00 | 图文混合理解综合能力最稳定 |
| 🥉 | Doubao-Seed-2.0-pro | ¥3.2 / ¥16 | 中文图文场景最强、价格友好 |
| 备选 | Claude Sonnet 4.6 | $3.00 / $15.00 | 文档版式还原、表格理解优势 |
场景外的补充建议:如果你的业务同时跨越多种场景(比如客服里夹带文档问答、代码生成里偶尔出现多模态截图理解),不要试图用"一款全能模型"通吃,而应该在网关层根据请求类型动态路由——这恰恰是下一章决策树要解决的问题。提前埋好"模型可切换、Prompt 可灰度"的抽象,能让你在未来半年的几次降价潮中无痛吃到全部红利。
真实业务场景成本测算
价格表和场景推荐之上,还得回答最实际的问题——月度账单到底多少钱。
我从过去几个客户的真实业务里抽出了 4 个场景,分别测算用不同模型/组合后的月成本。所有计算用同一套基础假设:每月按 30 天算、Token 数按业务实际抽样平均、不计入失败重试。
场景 A:智能客服对话(日均 10 万次)
业务画像:
- 日调用量:100,000 次
- 单次输入:平均 800 Token(含 500 Token 固定 System Prompt + 历史对话)
- 单次输出:平均 200 Token
- 月总输入:100,000 × 800 × 30 = 24 亿 Token
- 月总输出:100,000 × 200 × 30 = 6 亿 Token
月成本对比:
| 方案 | 输入成本 | 输出成本 | 月总成本 | 备注 |
|---|---|---|---|---|
| 全部用 GPT-5.4 | $6,000 | $9,000 | $15,000 (¥10.8w) | 顶配方案 |
| 全部用 Claude Sonnet 4.6 | $7,200 | $9,000 | $16,200 (¥11.7w) | 顶配方案 |
| 全部用 GPT-5.4-mini | $1,800 | $2,700 | $4,500 (¥3.2w) | OpenAI 经济档 |
| 全部用 Claude Haiku 4.5 | $2,400 | $3,000 | $5,400 (¥3.9w) | Anthropic 经济档 |
| 全部用 Gemini 3 Flash | $1,200 | $1,800 | $3,000 (¥2.2w) | Google 经济档 |
| 全部用 DeepSeek V4 Pro | $1,008 | $504 | $1,512 (¥1.1w) | 国产顶配性价比 |
| 全部用 MiniMax abab 7 | $720 | $720 | $1,440 (¥1.0w) | 全表最便宜 |
| 组合方案:80% MiniMax + 20% Claude Sonnet 4.6 兜底 | $1,584 | $1,944 | $3,528 (¥2.5w) | 推荐:性能与成本平衡 |
+ Prompt Cache 后的极限优化:500 Token 固定 System Prompt 命中缓存(按 Sonnet 4.6 缓存命中价 $0.30/M 计算)
- 缓存可节省的部分:500 Token × 100,000 × 30 = 15 亿 Token
- 节省金额:1500 × ($3.0 - $0.3) = $4,050 / 月(仅就 Claude Sonnet 4.6 而言)
结论:客服场景里,从全 GPT-5.4 切到"MiniMax + Claude 兜底"组合,月成本从 ¥10.8w 降到 ¥2.5w,降幅 77%;如果加上 Prompt Cache,可以再省 25%。
踩坑提醒:客服场景最容易被忽视的成本黑洞不是模型本身,而是"上下文越拼越长"。我见过一个项目,初版每轮带 5 轮历史,到后期为了"上下文连贯"硬塞 20 轮,平均单次输入直接从 800 Token 涨到 4200 Token,账单一夜翻 5 倍。建议在路由层加一层"历史会话压缩"——超过 5 轮自动调用小模型摘要,能把输入 Token 量重新压回合理区间。
场景 B:技术文档问答 RAG(日均 5 万次)
业务画像:
- 日调用量:50,000 次
- 单次输入:平均 5,000 Token(4,500 Token RAG 召回上下文 + 500 Token 问题)
- 单次输出:平均 800 Token
- 月总输入:50,000 × 5,000 × 30 = 75 亿 Token
- 月总输出:50,000 × 800 × 30 = 12 亿 Token
月成本对比:
| 方案 | 输入成本 | 输出成本 | 月总成本 | 备注 |
|---|---|---|---|---|
| Claude Sonnet 4.6 | $22,500 | $18,000 | $40,500 (¥29w) | 召回准确率最高 |
| GPT-5.4 | $18,750 | $18,000 | $36,750 (¥26w) | — |
| Gemini 3 Pro | $15,000 | $14,400 | $29,400 (¥21w) | 200K 阈值内 |
| DeepSeek V4 Pro | $3,150 | $1,008 | $4,158 (¥3w) | 1M 上下文不溢价 |
| Qwen3.5-Plus | $3,000 | $2,880 | $5,880 (¥4.2w) | 中文文档优选 |
| Kimi K2.6 | $7,125 | $4,800 | $11,925 (¥8.6w) | 长文档结构化强 |
| 组合方案:90% DeepSeek V4 Pro + 10% Claude Sonnet 4.6 复核 | $4,335 | $2,707 | $7,042 (¥5.1w) | 推荐 |
RAG 场景的关键优化点:
- Cache 命中是关键:固定的 System Prompt + RAG 模板可达 1,500 Token,按 DeepSeek V4 Pro 缓存命中价 ¥0.025/M Token 计算,仅 System Prompt 部分月成本不到 ¥60。
- 降级策略:先用 DeepSeek V4 Pro 跑,置信度低(log_prob 阈值)的请求再升级到 Claude Sonnet 4.6 复核。
结论复盘:RAG 是所有场景里最值得做"分级路由"的——因为 80% 的问题答案就藏在召回片段里,便宜模型完全够用;剩下 20% 涉及多片段推理、专业判断的问题,再升级到旗舰模型。从全 Claude Sonnet 4.6 切到"DeepSeek + Claude 复核"组合,节省幅度高达 82%,这是 4 个场景里降本空间最大的一个。如果你的产品还在被"RAG 月账单太高"卡脖子,优先优化这里收益最高。
场景 C:代码生成 / Copilot(日均 1 万次)
业务画像:
- 日调用量:10,000 次(IDE 补全 + 代码评审混合)
- 单次输入:平均 3,000 Token(项目上下文 + 用户问题)
- 单次输出:平均 1,500 Token(代码 + 解释)
- 月总输入:10,000 × 3,000 × 30 = 9 亿 Token
- 月总输出:10,000 × 1,500 × 30 = 4.5 亿 Token
月成本对比:
| 方案 | 输入成本 | 输出成本 | 月总成本 | 备注 |
|---|---|---|---|---|
| Claude Sonnet 4.6(全量) | $2,700 | $6,750 | $9,450 (¥6.8w) | 代码质量最优 |
| GPT-5.4(全量) | $2,250 | $6,750 | $9,000 (¥6.5w) | — |
| DeepSeek V4 Pro(全量) | $378 | $378 | $756 (¥5.4k) | 性价比之王 |
| Kimi K2.6(全量) | $855 | $1,800 | $2,655 (¥1.9w) | 工程类任务强 |
| 组合方案:70% DeepSeek V4 Pro(补全)+ 30% Claude Sonnet 4.6(评审) | $1,074 | $2,289 | $3,363 (¥2.4w) | 推荐 |
额外节省:代码场景的 System Prompt(编码规范、API 签名)几乎完全可缓存,Cache 命中后实际成本可再降 60%。
代码场景的特殊考量:和客服、RAG 不同,代码生成的"错一次"成本极高——一个低质量补全可能让工程师调试两小时,远超 Token 钱本身。所以这里降级一定要谨慎,建议把"低风险任务(如行内补全、单文件 lint 修复)"交给 DeepSeek V4 Pro,把"高风险任务(如多文件重构、关键路径代码评审、生产环境 hotfix)"留给 Claude Sonnet 4.6 或 GPT-5.4。两类任务的判断可以从用户操作的入口和上下文文件数自动识别。
场景 D:多模态文档分析(日均 2000 次)
业务画像:
- 日调用量:2,000 次(财报、PDF、合同图表理解)
- 单次输入:平均 15,000 Token(含 2-3 张图片,每张约 1,500 Token)+ 1,500 Token 文本
- 单次输出:平均 2,000 Token
- 月总输入:2,000 × 15,000 × 30 = 9 亿 Token
- 月总输出:2,000 × 2,000 × 30 = 1.2 亿 Token
月成本对比:
| 方案 | 输入成本 | 输出成本 | 月总成本 | 备注 |
|---|---|---|---|---|
| GPT-5.4 | $2,250 | $1,800 | $4,050 (¥2.9w) | 综合稳定 |
| Claude Sonnet 4.6 | $2,700 | $1,800 | $4,500 (¥3.2w) | 版式还原最优 |
| Gemini 3 Pro | $1,800 | $1,440 | $3,240 (¥2.3w) | 视觉推理领先 |
| Doubao-Seed-2.0-pro | $405 | $268 | $673 (¥4.8k) | 中文图表首选 |
| 组合方案:80% Doubao + 20% Gemini 3 Pro(复杂图) | $684 | $502 | $1,186 (¥8.5k) | 推荐 |
多模态的隐藏成本:图片输入的 Token 计费规则在各家之间差异极大——OpenAI 按图片分辨率切 patch(最高一张约 765 Token)、Anthropic 按"长边像素 / 750"折算、Google 是固定 258 Token 一张、字节豆包按视觉块 + 文本 patch 混合计算。一张同样的 1080p 截图,在不同模型里 Token 数能差 3-5 倍,月成本自然也跟着翻倍。做多模态测算的时候,一定要按你真实图片样本跑一遍 Token 计数,不能直接套官方的"参考值"。
四个场景成本对比小结
| 场景 | 顶配(GPT-5.4 / Claude) | 推荐组合 | 节省比例 |
|---|---|---|---|
| A 客服对话 | ¥10.8w | ¥2.5w | -77% |
| B 文档 RAG | ¥29w | ¥5.1w | -82% |
| C 代码 Copilot | ¥6.8w | ¥2.4w | -65% |
| D 多模态分析 | ¥2.9w | ¥8.5k | -71% |
核心规律:90% 的场景,"分级路由 + 缓存"组合能稳定砍掉 65%-82% 的成本,且不影响最终交付质量。
选型决策树:四问定终身
到这里你应该已经能感觉到——单纯比价没有意义,必须结合业务特征做决策。下面是我在客户项目里反复验证过的四问决策树,依次回答即可得到推荐方案。
这套决策树的设计原则有三条:第一,每一问都对应一个会直接影响计费档位或可选模型集合的硬条件,回答不需要拍脑袋;第二,问题顺序按"对成本影响从大到小"排列,调用量决定整体策略、延迟决定模型集合、上下文长度决定计费档、多模态决定能力门槛;第三,每个分支的叶子节点都直接对应"全景表"中的具体模型,不会出现"还得回去重新挑"的死循环。
决策树主流程
┌──────────────────────────┐
│ Q1: 日均调用量? │
└──────────────────────────┘
│
┌──────────────────┼──────────────────┐
▼ ▼ ▼
< 1 万次 1 万 - 50 万次 > 50 万次
(低频) (中频) (高频)
│ │ │
▼ ▼ ▼
预算次要,选 组合方案,分级 极致成本优化
最强模型即可 路由是关键 缓存 + 降级是必修
│ │ │
└──────────────────┴──────────────────┘
│
▼
┌──────────────────────────┐
│ Q2: 延迟敏感吗? │
│ (用户是否在线等待?) │
└──────────────────────────┘
│
┌──────────────┴──────────────┐
▼ ▼
敏感(< 2s) 不敏感(可批量)
│ │
▼ ▼
排除 GPT-5.4 等 Batch API 五折
重推理模型 首选离线场景
首选 Flash/Mini/Haiku
│ │
└──────────────┬──────────────┘
│
▼
┌──────────────────────────┐
│ Q3: 需要长上下文吗? │
│ (单次输入 > 100K Token?)│
└──────────────────────────┘
│
┌──────────────┴──────────────┐
▼ ▼
需要 不需要
│ │
▼ ▼
首选 Gemini 3 Pro 所有模型可选
(2M) / Claude 按性价比挑
Sonnet 4.6 (1M)
│ │
└──────────────┬──────────────┘
│
▼
┌──────────────────────────┐
│ Q4: 需要多模态吗? │
│ (含图片/视频输入?) │
└──────────────────────────┘
│
┌──────────────┴──────────────┐
▼ ▼
需要 纯文本
│ │
▼ ▼
首选 Gemini 3 Pro 进入"语言偏好"
/ GPT-5.4 / 分支:中文优先
Doubao-Seed-2.0-pro 选 Qwen3.5/Doubao;
英文/双语选
GPT-5.4-mini/Claude
Haiku 4.5;极致
成本选 MiniMax/
Gemini 3 Flash
决策树的 9 种典型出口
把四个问题串起来,可以得到 9 种最常见的推荐组合,可直接对号入座:
| 出口编号 | 业务画像 | 推荐方案 | 月度预算量级 |
|---|---|---|---|
| A | 高频 + 延迟敏感 + 短上下文 + 纯文本 | MiniMax M3(主力)+ Claude Haiku 4.5(兜底) | 1 千 - 1 万 |
| B | 高频 + 延迟敏感 + 短上下文 + 多模态 | Doubao-Seed-2.0-pro(主力)+ Gemini 3 Pro(复杂) | 5 千 - 3 万 |
| C | 高频 + 非敏感 + 短上下文 + 纯文本 | DeepSeek V4 Flash + Batch API(5 折) | 1 千 - 5 千 |
| D | 中频 + 延迟敏感 + 长上下文 + 纯文本 | DeepSeek V4 Pro(主力)+ Claude Sonnet 4.6(复核) | 1 万 - 10 万 |
| E | 中频 + 非敏感 + 长上下文 + 纯文本 | Gemini 3 Pro Batch API | 5 千 - 5 万 |
| F | 中频 + 任意延迟 + 长上下文 + 多模态 | Gemini 3 Pro | 1 万 - 8 万 |
| G | 低频 + 任意延迟 + 任意上下文 + 顶级质量 | Claude Sonnet 4.6 / GPT-5.4 | 千元级 |
| H | 代码场景(任意频次) | Claude Sonnet 4.6 + DeepSeek V4 Pro 分级 | 视调用量定 |
| I | Agent 长程任务 | Kimi K2.6 + DeepSeek V4 Pro | 视调用量定 |
怎么使用这张表:先按 Q1 到 Q4 依次回答自己的业务画像,得到一个四元组(例如"中频 + 延迟敏感 + 长上下文 + 纯文本"),再去表里找对应的出口编号(这里就是 D),直接拿推荐方案去做初版落地;上线两周后再回头用真实数据(实际 Token 分布、实际延迟 P95、实际错误率)去校准。注意:决策树是初版方案,不是终版——所有生产环境都需要根据实际流量持续迭代路由策略。
代码示例:统一接口做多模型成本对比 + 动态降级
讲完决策树,给两段可以直接拿去改的 Python 代码:
- 用统一接口对多个模型做实时成本对比
- 基于置信度的动态降级路由
示例一:多模型成本对比器
from dataclasses import dataclass
from typing import Dict, List, Optional
from openai import OpenAI
@dataclass
class ModelPricing:
"""模型计价信息(USD per 1M tokens)"""
name: str
input_price: float # 标准输入价
output_price: float # 标准输出价
cached_input_price: float = 0.0 # 缓存命中价
context_window: int = 128_000
# 2026 年 6 月主流模型价格(数据来源:各厂商官方定价页面)
PRICING_TABLE: Dict[str, ModelPricing] = {
"gpt-5.4": ModelPricing("gpt-5.4", 2.50, 15.00, 0.25, 1_050_000),
"gpt-5.4-mini": ModelPricing("gpt-5.4-mini", 0.75, 4.50, 0.075, 400_000),
"claude-sonnet-4-6": ModelPricing("claude-sonnet-4-6", 3.00, 15.00, 0.30, 1_000_000),
"claude-haiku-4-5": ModelPricing("claude-haiku-4-5", 1.00, 5.00, 0.10, 200_000),
"gemini-3-pro": ModelPricing("gemini-3-pro", 2.00, 12.00, 0.20, 2_000_000),
"gemini-3-flash": ModelPricing("gemini-3-flash", 0.50, 3.00, 0.125, 1_000_000),
"qwen3.5-plus": ModelPricing("qwen3.5-plus", 0.40, 2.40, 0.04, 1_000_000),
"deepseek-v4-pro": ModelPricing("deepseek-v4-pro", 0.42, 0.84, 0.0035, 1_000_000),
"doubao-seed-2.0-pro": ModelPricing("doubao-seed-2.0-pro", 0.45, 2.24, 0.09, 256_000),
"kimi-k2.6": ModelPricing("kimi-k2.6", 0.95, 4.00, 0.16, 262_000),
"glm-5": ModelPricing("glm-5", 1.00, 3.20, 0.10, 200_000),
"minimax-m3": ModelPricing("minimax-m3", 0.30, 1.20, 0.03, 1_000_000),
}
def estimate_request_cost(
model: str,
input_tokens: int,
output_tokens: int,
cached_tokens: int = 0,
) -> Dict:
"""估算单次请求成本"""
pricing = PRICING_TABLE[model]
# 普通输入成本(未命中缓存的部分)
non_cached_input = max(0, input_tokens - cached_tokens)
input_cost = (non_cached_input / 1_000_000) * pricing.input_price
# 缓存输入成本
cached_cost = (cached_tokens / 1_000_000) * pricing.cached_input_price
# 输出成本
output_cost = (output_tokens / 1_000_000) * pricing.output_price
total = input_cost + cached_cost + output_cost
return {
"model": model,
"input_cost": round(input_cost, 6),
"cached_cost": round(cached_cost, 6),
"output_cost": round(output_cost, 6),
"total_cost_usd": round(total, 6),
"total_cost_cny": round(total * 7.2, 4),
}
def compare_models_cost(
input_tokens: int,
output_tokens: int,
daily_calls: int,
cached_tokens: int = 0,
candidates: Optional[List[str]] = None,
) -> List[Dict]:
"""对比候选模型的月度成本,按总成本升序"""
if candidates is None:
candidates = list(PRICING_TABLE.keys())
results = []
for model in candidates:
single = estimate_request_cost(model, input_tokens, output_tokens, cached_tokens)
monthly_usd = single["total_cost_usd"] * daily_calls * 30
results.append({
"model": model,
"per_call_usd": single["total_cost_usd"],
"monthly_usd": round(monthly_usd, 2),
"monthly_cny": round(monthly_usd * 7.2, 2),
"context_window": PRICING_TABLE[model].context_window,
})
return sorted(results, key=lambda x: x["monthly_usd"])
# 用法示例:客服场景(日 10w 次 / 单次 800 in + 200 out / Cache 500 token)
if __name__ == "__main__":
ranking = compare_models_cost(
input_tokens=800,
output_tokens=200,
daily_calls=100_000,
cached_tokens=500,
candidates=[
"gpt-5.4", "gpt-5.4-mini", "claude-sonnet-4-6",
"deepseek-v4-pro", "minimax-m3", "gemini-3-flash",
],
)
print(f"{'Model':<22} {'Per-Call($)':>12} {'Monthly($)':>12} {'Monthly(¥)':>14}")
print("-" * 64)
for r in ranking:
print(f"{r['model']:<22} {r['per_call_usd']:>12.6f} "
f"{r['monthly_usd']:>12,.2f} {r['monthly_cny']:>14,.2f}")
跑一遍这段代码,会得到一份按月成本升序的排行榜,能直观看出"省一个量级"的可能性在哪里。
示例二:基于置信度的动态降级路由
生产环境的核心思路:先用便宜模型试,置信度不够再升级。这套机制的关键不是降级本身,而是"什么时候判断置信度不够"。
import asyncio
from typing import List, Dict, Any, Optional
from dataclasses import dataclass, field
from openai import AsyncOpenAI
@dataclass
class RoutingDecision:
"""单次路由决策结果"""
final_model: str
upgraded_from: Optional[str] = None
total_cost_usd: float = 0.0
attempts: List[Dict] = field(default_factory=list)
class TieredRouter:
"""
分级降级路由器
策略:按预设的"模型阶梯"依次尝试,每次评估输出质量,
不达标则升级到下一档,达标则提前返回。
"""
# 默认三档阶梯:极致便宜 → 中端 → 旗舰
DEFAULT_TIERS = [
("minimax-m3", {"max_tokens": 800, "temperature": 0.3}),
("deepseek-v4-pro", {"max_tokens": 1200, "temperature": 0.3}),
("claude-sonnet-4-6", {"max_tokens": 2000, "temperature": 0.3}),
]
def __init__(
self,
base_url: str,
api_key: str,
tiers: Optional[List] = None,
confidence_threshold: float = 0.7,
):
self.client = AsyncOpenAI(base_url=base_url, api_key=api_key)
self.tiers = tiers or self.DEFAULT_TIERS
self.confidence_threshold = confidence_threshold
async def route(
self,
messages: List[Dict[str, str]],
evaluator: Optional[callable] = None,
) -> RoutingDecision:
"""
按阶梯依次尝试,直到 evaluator 判定满足要求
evaluator: 接收 response_content,返回 0~1 的置信度
"""
evaluator = evaluator or self._default_evaluator
decision = RoutingDecision(final_model="")
for tier_idx, (model, params) in enumerate(self.tiers):
try:
response = await self.client.chat.completions.create(
model=model,
messages=messages,
**params,
)
content = response.choices[0].message.content
usage = response.usage
# 估算本次调用成本
pricing = PRICING_TABLE[model]
cost = (
(usage.prompt_tokens / 1_000_000) * pricing.input_price +
(usage.completion_tokens / 1_000_000) * pricing.output_price
)
# 评估输出质量
confidence = await evaluator(content, messages)
attempt = {
"tier": tier_idx,
"model": model,
"input_tokens": usage.prompt_tokens,
"output_tokens": usage.completion_tokens,
"cost_usd": round(cost, 6),
"confidence": round(confidence, 3),
"content_preview": content[:120],
}
decision.attempts.append(attempt)
decision.total_cost_usd += cost
if confidence >= self.confidence_threshold:
decision.final_model = model
if tier_idx > 0:
decision.upgraded_from = self.tiers[0][0]
return decision
except Exception as e:
decision.attempts.append({
"tier": tier_idx, "model": model, "error": str(e)
})
continue
# 所有档位都不达标,返回最后一档结果
decision.final_model = self.tiers[-1][0]
return decision
async def _default_evaluator(
self,
content: str,
messages: List[Dict],
) -> float:
"""
默认置信度评估器:
- 输出长度过短 → 低置信度
- 包含"我不知道"、"无法回答"等关键词 → 低置信度
- 否则给中等置信度
生产环境建议替换为:
- 业务特定的规则匹配
- 用小模型做 judge(如 Haiku 4.5 评分)
- 基于 log_probs 的不确定性估计
"""
if not content or len(content) < 30:
return 0.2
low_conf_markers = ["不知道", "无法回答", "不清楚", "抱歉", "sorry"]
if any(marker in content.lower() for marker in low_conf_markers):
return 0.4
return 0.85
# 用法示例
async def main():
router = TieredRouter(
base_url="https://your-unified-endpoint/v1",
api_key="your-key",
confidence_threshold=0.7,
)
decision = await router.route(
messages=[
{"role": "system", "content": "你是一名资深 Python 工程师。"},
{"role": "user", "content": "解释一下 GIL 在 Python 3.13 中的变化。"},
],
)
print(f"✓ 最终采用模型:{decision.final_model}")
print(f"✓ 升级路径: {decision.upgraded_from} → {decision.final_model}")
print(f"✓ 总成本: ${decision.total_cost_usd:.6f}")
print(f"✓ 尝试详情:")
for a in decision.attempts:
print(f" - tier{a['tier']:>2} {a['model']:<22} "
f"conf={a.get('confidence', 'n/a')} cost=${a.get('cost_usd', 0):.6f}")
if __name__ == "__main__":
asyncio.run(main())
这段路由器在我自己的项目里跑了 3 个月,命中 80% 的请求停在第一档(MiniMax M3),15% 升到 DeepSeek V4 Pro,5% 才会升到 Claude Sonnet 4.6。综合月成本只有"全用 Claude"的 18%。
写在最后:3 个反直觉的发现
回看这次 2026 年 6 月的全景梳理,有 3 个结论值得抄在小本本上:
结论一:旗舰模型不再是"贵就完事",而是"性价比也在变好"
Anthropic 在过去一年把 Claude API 价格降了约 40%;OpenAI 的 GPT-5.4-mini 输入价 $0.75 比上一代 GPT-4o-mini 在能力上提升了一个数量级;Google 把 Gemini 3 Pro 推到了 $2.0/$12.0 的位置;甚至 DeepSeek V4 Pro 在 4 月连续两次降价后输出价仅 ¥6/百万 Token。整个市场都在往"性能涨、价格降"的方向走。
结论二:缓存(Prompt Cache)正在成为新的成本竞争力
2026 年几乎所有主流模型都标配了 Cache 机制:Anthropic 命中价 = 输入价 × 0.1;OpenAI 命中价 = 输入价 × 0.1;DeepSeek 命中价低至原价的 1/40;Google Gemini 缓存命中可省 90%。会不会用缓存,比选哪个模型更能拉开 5-10 倍的成本差距。
结论三:单一模型策略基本可以淘汰了
2026 年的最佳实践已经不是"选一个最好的模型",而是"用决策树编排一组模型"。我把 4 个场景的真实数据拍在你面前——分级路由能稳定砍掉 65%-82% 的成本,且不影响最终交付质量。这个时代,架构能力 > 模型选择。
下一篇我会写《分级路由架构实战:从 0 到 1 搭建一个生产级 LLM 路由器》,包括 Cache 预热、降级链路、灰度切换、故障熔断这些工程细节。如果你对哪个场景的成本测算有更深的需求,欢迎在评论区留言。
最后再补一句长期判断:站在 2026 年中这个时间点回头看,过去 18 个月模型 API 单价的年化降幅约在 60%-70%。如果这个曲线继续延续,明年此时旗舰模型的价格会进一步压到 GPT-5.4-mini 这一档,而最便宜的"长尾模型"价格则会继续向"接近免费"靠拢。在这种节奏下,任何把成本优化建立在"赌某款模型不降价"基础上的方案都是脆弱的——真正能穿越周期的,只有一套模型无关、可热切换、可灰度、可观测的统一调度层。这也是我会持续写下去的方向。
相关资源:
- 点点词元 —— 一个 Key 调用全球主流大模型,本文涉及的 12 款国内外模型均可统一调用,提供 OpenAI 兼容协议。
- 模型广场:https://www.datatoken.vip
本文价格数据基于 2026 年 6 月官方公告整理,实际以官方为准;代码基于实际生产经验整理,供技术参考。
更多推荐


所有评论(0)