上周我接了个私活,甲方要求同时对接好几个大模型做 A/B 测试——GPT-5.4 刚出没几天,老板非要跟 Claude Opus 4.6、Gemini 3、DeepSeek V3 放一起比比。我寻思这活儿不复杂,结果一算成本差点劝退自己。各家定价策略天差地别,光查价格就花了大半天。索性把评测数据整理出来,省得后面再查。

核心结论先放这儿:GPT-5.4 综合能力确实是目前第一梯队,但论性价比,DeepSeek V3 和 Qwen 3 在中文场景下能打出 5-8 倍的价格优势。如果你什么模型都想试,用聚合 API 平台改一行 base_url 切模型是最省事的方案。

评测维度说明

这次评测我关注五个维度,都是实际开发中最直接影响选型的指标:

  1. 推理能力:用 HumanEval+、GPQA Diamond、MATH-500 三个基准
  2. 中文理解:自己攒了一套 200 条中文 prompt 测试集(含长文总结、多轮对话、指令跟随)
  3. 响应延迟:首 token 延迟 + 完整输出延迟(streaming 模式)
  4. API 价格:输入/输出 token 单价,统一换算成人民币
  5. 上下文与多模态:最大上下文、是否支持图片/音频/视频

测试环境:Python 3.12,统一用 OpenAI SDK 格式调用,每条 prompt 跑 3 次取中位数。测试日期 2026 年 6 月第三周。

评测结果天梯图

先看总表,后面逐个拆解。

模型 推理能力 中文理解 首 Token 延迟 输入价格(元/百万token) 输出价格(元/百万token) 最大上下文 多模态
GPT-5.4 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ~450ms ¥72 ¥216 256K 图片/音频/视频
Claude Opus 4.6 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ~500ms ¥108 ¥324 200K 图片
Gemini 3 Pro ⭐⭐⭐⭐ ⭐⭐⭐⭐ ~380ms ¥50 ¥150 2M 图片/音频/视频
DeepSeek V3 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ~350ms ¥4 ¥16 128K 图片
Qwen 3 ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ~300ms ¥5 ¥20 128K 图片/音频
Minimax 最新版 ⭐⭐⭐⭐ ⭐⭐⭐⭐ ~400ms ¥6 ¥18 256K 图片/音频
豆包 2.0 ⭐⭐⭐½ ⭐⭐⭐⭐ ~320ms ¥3 ¥12 128K 图片

注:价格为 2026 年 6 月各平台官网公示价格,按当前汇率折算人民币,可能随时调整。

第一梯队:GPT-5.4 vs Claude Opus 4.6

GPT-5.4

说实话,OpenAI 这次定价确实让我肉疼。输出 token ¥216/百万,跑一个中等复杂度的 Agent 工作流,一天下来成本能到三位数。但能力层面没什么好挑的——GPQA Diamond 跑到 72.3%,MATH-500 得分 96.8%,HumanEval+ 也是 93.4%,确实强。

GPT-5.4 最大的升级是原生支持视频输入和更长的结构化输出。我测了一个场景:丢一段 30 秒的产品演示视频进去,让它生成 API 文档,输出质量很稳,几乎不需要二次编辑。

槽点也明显:贵就是原罪。同样一个日均 10 万 token 的项目,GPT-5.4 月成本大概 ¥650+,DeepSeek V3 才 ¥60 左右。10 倍差距,不是所有场景都值得。

Claude Opus 4.6

Opus 4.6 在代码和长文推理上跟 GPT-5.4 不相上下,个别 benchmark 甚至略高。问题是价格更贵——输出 ¥324/百万 token,大概是 GPT-5.4 的 1.5 倍。Anthropic 这定价策略明显瞄准的是企业级客户。

另一个让我不太爽的是上下文窗口「只有」200K。虽然够用,但 Gemini 3 的 2M 上下文一对比就显得保守了。

对比项 GPT-5.4 Claude Opus 4.6
HumanEval+ 93.4% 94.1%
GPQA Diamond 72.3% 71.8%
MATH-500 96.8% 95.2%
中文指令跟随(自测) 88/100 86/100
输出价格(元/百万token) ¥216 ¥324
上下文窗口 256K 200K
Function Calling 稳定性 ★★★★★ ★★★★

主要写代码、做 Agent 的话,两个都行。在乎成本的话,GPT-5.4 比 Opus 4.6 便宜 30%。

第二梯队:性价比战场

DeepSeek V3

DeepSeek V3 是我目前个人项目用得最多的。输入 ¥4/百万 token,输出 ¥16/百万 token,价格只有 GPT-5.4 的 1/13。中文场景下表现甚至比 GPT-5.4 更好——我那套 200 条中文测试集里,DeepSeek V3 在长文总结和多轮对话上赢了。

要说缺点:Function Calling 的稳定性不如 GPT-5.4,偶尔会出现参数格式错误,特别是嵌套 JSON 比较深的时候。大概每 50 次调用会遇到 1-2 次。

Qwen 3

阿里的 Qwen 3 在延迟方面表现最好,首 token 只要 ~300ms,中文理解能力也是顶级的。价格跟 DeepSeek V3 一个档位。做中文客服机器人这种对延迟敏感的项目,我会优先选它。

Minimax 最新版

Minimax 这次号称对标 Claude Opus 4.6,我实测下来觉得有点吹——推理能力大概在 Gemini 3 Pro 水平,距离 Opus 4.6 还有一段距离。但价格确实便宜,256K 上下文在同价位里算大方的。

豆包 2.0

字节刚发的豆包 2.0,价格最低,综合能力也是几个里面最弱的。适合简单任务——生成营销文案、做简单问答这种,没必要上 GPT-5.4。

成本测算:真实场景下到底花多少钱

光看单价没感觉,我按三个典型场景算了月成本:

场景 日均 Token 用量 GPT-5.4 月成本 Claude Opus 4.6 月成本 DeepSeek V3 月成本 Qwen 3 月成本
个人 Side Project(轻度) 输入5万+输出2万 ¥238 ¥342 ¥16 ¥20
中等 SaaS 产品 输入50万+输出20万 ¥2,376 ¥3,564 ¥160 ¥200
高频 Agent 工作流 输入200万+输出100万 ¥10,800 ¥16,200 ¥720 ¥900

月成本 = (日输入量 × 输入单价 + 日输出量 × 输出单价) × 30

看到这个表我人傻了——高频 Agent 场景下,GPT-5.4 一个月要烧一万多,DeepSeek V3 才七百。能力有差距,但很多场景下这个差距真不值 15 倍的价差。

调用链路:我怎么同时测这么多模型的

这次评测我用了 ofox.ai 的聚合 API,省去了注册一堆账号的麻烦。ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5.4、Claude Opus 4.6、Gemini 3、DeepSeek V3 等 50+ 模型,低延迟直连无需代理,支持支付宝付款。

调用链路长这样:

评测脚本 Python

ofox.ai 聚合网关

GPT-5.4

Claude Opus 4.6

Gemini 3 Pro

DeepSeek V3

Qwen 3

Minimax / 豆包 2.0

代码层面就是改一下 model 参数,base_url 不用变:

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

models = [
 "gpt-5.4",
 "claude-opus-4.6",
 "gemini-3-pro",
 "deepseek-v3",
 "qwen-3",
]

for model in models:
 response = client.chat.completions.create(
 model=model,
 messages=[{"role": "user", "content": "用 Python 实现一个 LRU Cache"}],
 stream=True
 )
 for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="")
 print(f"\n--- {model} done ---\n")

这样跑一遍就能出对比数据,不用折腾多套 SDK。

不同需求怎么选

对号入座:

你的场景 推荐模型 理由
追求极致推理/复杂 Agent GPT-5.4 综合最强,多模态最全
代码生成为主 Claude Opus 4.6 或 GPT-5.4 HumanEval 得分最高
中文 SaaS 产品 DeepSeek V3 / Qwen 3 中文好+便宜,性价比拉满
超长文档处理 Gemini 3 Pro 2M 上下文,没对手
预算极低/简单任务 豆包 2.0 最便宜,简单任务够用
什么都想试/A/B 测试 聚合 API(如 ofox.ai 一个 Key 切换不同模型,省事

小结

GPT-5.4 确实强,但 2026 年大模型市场已经不是一家独大的局面了。DeepSeek V3 和 Qwen 3 在中文场景的性价比太能打,Gemini 3 的 2M 上下文是独一档的优势,Minimax 和豆包也在快速追赶。

我现在的做法是:核心推理链路用 GPT-5.4 保证质量,简单任务和大量 token 消耗的环节换 DeepSeek V3 压成本。两条线并行跑,整体成本能省 60-70%。

按场景选型,别死磕一个模型。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐