【大模型评测系列】我用 10 条真实任务对比了 GLM-5.1（百炼） vs GLM-5.2（百炼） vs DeepSeek-V4-Pro（官方）

weixin_37899718

657人浏览 · 2026-06-18 07:34:06

weixin_37899718 · 2026-06-18 07:34:06 发布

【评测系列6 扩展版】新模型上线怎么测？

我用 10 条真实任务对比了 GLM-5.1（百炼） vs GLM-5.2（百炼） vs DeepSeek-V4-Pro（官方）

测试员周周 · 14 年测试经验 · 用数据说话 · 测试日期 2026-06-18

新模型发布，媒体通稿满天飞。"XX 模型全面超越 XX"——这些数字你怎么验证？我从测试平台抽了 10 条真实任务，让三个模型各跑一遍，记录耗时、Token 消耗、输出质量。本次对比：GLM-5.1（百炼） vs GLM-5.2（百炼） vs DeepSeek-V4-Pro（官方）。

🛑 先说结论

一句话总结：🤝 三个模型通过率相同（100.0%）

✅ 通过率：3 个模型均达到 100% 通过（10/10），质量整体接近。
⚡ 速度：DeepSeek-V4-Pro（官方）最快，比 GLM-5.1（百炼）快 59.0%（25.2s vs 61.5s）。
💰 Token 效率：DeepSeek-V4-Pro（官方）最省，比 GLM-5.1（百炼）省 38.7%（2092 vs 3414 tokens/任务）。

指标	GLM-5.1（百炼）	GLM-5.2（百炼）	DeepSeek-V4-Pro（官方）
通过率	100.0%	100.0%	100.0%
通过/总数	10/10	10/10	10/10
平均耗时	61.5s	62.0s	25.2s
平均 Token	3414	3160	2092
总 Token	34143	31605	20928

我测了什么？怎么测的？

测试平台

基于多 Agent 测试平台的真实使用场景，包含需求解析、用例生成、脚本生成、性能方案、Bug 诊断、安全数据、报告生成等完整测试工程链路。本次 10 条任务 全部来自平台真实场景，不是公开数据集。

10 条评测任务

任务ID	类别	维度	难度	测试内容
BENCH_001	用例生成	任务规划	Medium	根据电商秒杀系统需求生成测试用例
BENCH_002	用例评审	任务规划	Medium	评审测试用例质量并给出改进建议
BENCH_003	API 测试脚本生成	代码能力	Medium	根据测试用例生成 Pytest 自动化脚本
BENCH_004	性能测试方案	任务规划	Hard	设计秒杀接口的性能测试方案
BENCH_005	Bug 分析诊断	知识问答	Hard	分析性能测试中的瓶颈问题
BENCH_006	安全测试数据生成	工具使用	Medium	为登录接口生成模糊测试数据
BENCH_007	Locust 脚本生成	代码能力	Hard	生成电商秒杀场景的 Locust 压测脚本
BENCH_008	测试报告生成	多轮对话	Medium	根据测试结果生成测试报告
BENCH_009	需求解析	任务规划	Easy	从自然语言需求中提取测试要点
BENCH_010	代码 Review	代码能力	Hard	Review 测试代码并给出改进建议

评测方法（关键原则）

配置模型：GLM-5.1（百炼） + GLM-5.2（百炼） + DeepSeek-V4-Pro（官方）
固定参数：temperature=0.3, max_tokens=4096
逐条执行：每条任务调用模型 API，记录输入、输出、耗时、Token
自动评分：根据预设评价标准自动判定是否通过
人工复核：检查关键任务输出质量

关键原则：三模型使用完全相同的 prompt；记录真实 API 调用数据；评测框架独立于业务系统。

评测过程：实测日志

🚀 GLM-5.1（百炼）评测过程

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (67.1s, 3720 tokens)
[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (55.9s, 2990 tokens)
[ 3/10] BENCH_003 (API 测试脚本生成, Medium) ... ✅ (57.1s, 3377 tokens)
[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (64.7s, 3083 tokens)
[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (59.6s, 3044 tokens)
[ 6/10] BENCH_006 (安全测试数据生成, Medium) ... ✅ (61.5s, 4006 tokens)
[ 7/10] BENCH_007 (Locust 脚本生成, Hard) ... ✅ (88.0s, 4928 tokens)
[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (49.4s, 2680 tokens)
[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (48.7s, 2802 tokens)
[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (63.5s, 3513 tokens)

✅ 评测完成: GLM-5.1（百炼）
通过率: 100.0% (10/10) | 平均耗时: 61.5s | 平均 Token: 3414

🚀 GLM-5.2（百炼）评测过程

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (74.1s, 3234 tokens)
[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (69.0s, 2692 tokens)
[ 3/10] BENCH_003 (API 测试脚本生成, Medium) ... ✅ (82.0s, 3327 tokens)
[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (62.8s, 2825 tokens)
[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (60.2s, 2650 tokens)
[ 6/10] BENCH_006 (安全测试数据生成, Medium) ... ✅ (86.2s, 3748 tokens)
[ 7/10] BENCH_007 (Locust 脚本生成, Hard) ... ✅ (82.9s, 6323 tokens)
[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (30.4s, 1989 tokens)
[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (36.5s, 2435 tokens)
[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (35.8s, 2382 tokens)

✅ 评测完成: GLM-5.2（百炼）
通过率: 100.0% (10/10) | 平均耗时: 62.0s | 平均 Token: 3160

🚀 DeepSeek-V4-Pro（官方）评测过程

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (29.8s, 2863 tokens)
[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (25.4s, 1935 tokens)
[ 3/10] BENCH_003 (API 测试脚本生成, Medium) ... ✅ (21.5s, 2275 tokens)
[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (20.2s, 1334 tokens)
[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (25.0s, 1657 tokens)
[ 6/10] BENCH_006 (安全测试数据生成, Medium) ... ✅ (28.4s, 2638 tokens)
[ 7/10] BENCH_007 (Locust 脚本生成, Hard) ... ✅ (37.1s, 3089 tokens)
[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (12.9s, 1029 tokens)
[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (22.8s, 1699 tokens)
[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (29.2s, 2409 tokens)

✅ 评测完成: DeepSeek-V4-Pro（官方）
通过率: 100.0% (10/10) | 平均耗时: 25.2s | 平均 Token: 2092

评测结果：数据说话

总体对比

指标	GLM-5.1（百炼）	GLM-5.2（百炼）	DeepSeek-V4-Pro（官方）
通过率	100.0%	100.0%	100.0%
通过/总数	10/10	10/10	10/10
平均耗时	61.5s	62.0s	25.2s
平均 Token	3414	3160	2092
总 Token	34143	31605	20928

相对 GLM-5.1（百炼）的速度提升（正值表示比基准更快）

任务	GLM-5.2（百炼）	DeepSeek-V4-Pro（官方）
BENCH_001	-10.5%	+55.6%
BENCH_002	-23.4%	+54.6%
BENCH_003	-43.6%	+62.3%
BENCH_004	+2.9%	+68.8%
BENCH_005	-1.1%	+58.1%
BENCH_006	-40.3%	+53.8%
BENCH_007	+5.8%	+57.8%
BENCH_008	+38.4%	+73.9%
BENCH_009	+24.9%	+53.1%
BENCH_010	+43.7%	+54.1%

注：GLM-5.1（百炼）为基准（0%），负值表示比基准更慢。

逐任务对比

任务	难度	GLM-5.1 耗时	GLM-5.2 耗时	DS 耗时	GLM-5.1 Token	GLM-5.2 Token	DS Token
BENCH_001	Medium	67.1s	74.1s	29.8s	3720	3234	2863
BENCH_002	Medium	55.9s	69.0s	25.4s	2990	2692	1935
BENCH_003	Medium	57.1s	82.0s	21.5s	3377	3327	2275
BENCH_004	Hard	64.7s	62.8s	20.2s	3083	2825	1334
BENCH_005	Hard	59.6s	60.2s	25.0s	3044	2650	1657
BENCH_006	Medium	61.5s	86.2s	28.4s	4006	3748	2638
BENCH_007	Hard	88.0s	82.9s	37.1s	4928	6323	3089
BENCH_008	Medium	49.4s	30.4s	12.9s	2680	1989	1029
BENCH_009	Easy	48.7s	36.5s	22.8s	2802	2435	1699
BENCH_010	Hard	63.5s	35.8s	29.2s	3513	2382	2409

关键发现

GLM-5.2（百炼）
：平均耗时 62.0s，比基准快 -0.8%；平均 Token 3160。
在 10 条任务中有 5 条比 GLM-5.1（百炼）更快。
DeepSeek-V4-Pro（官方）
：平均耗时 25.2s，比基准快 59.0%；平均 Token 2092。
在 10 条任务中有 10 条比 GLM-5.1（百炼）更快。

输出质量对比（抽样）

BENCH_001 - 用例生成

GLM-5.1（百炼）（67.1s, 3720 tokens）

针对电商秒杀系统的特点，除了常规的功能测试外，**并发测试（高并发抢购、防超卖）和安全性测试（防刷、防绕过）**是核心。以下为您生成的结构化测试用例，分为四个模块：商品查询、秒杀活动查询、秒杀核心接口、订单查询及并发/安全专项。

GLM-5.2（百炼）（74.1s, 3234 tokens）

这是一份针对电商秒杀系统的接口测试用例。测试用例分为**功能测试**、**业务规则测试**、**并发与性能测试**以及**安全与异常测试**四个维度。

DeepSeek-V4-Pro（官方）（29.8s, 2863 tokens）

以下是根据需求设计的测试用例，覆盖接口功能、业务规则及异常场景。用例编号 TC-P-001 起，覆盖商品查询、秒杀核心接口等模块。

BENCH_004 - 性能测试方案

GLM-5.1（百炼）（64.7s, 3083 tokens）

针对秒杀接口的高并发、低库存、瞬时流量特征，性能测试方案必须聚焦于**瞬时高并发冲击**和**防超卖/防重卖**。峰值 QPS 目标：至少 1000 QPS 瞬时冲击。

GLM-5.2（百炼）（62.8s, 2825 tokens）

针对库存100件、并发1000人的秒杀场景，核心目标是验证系统在"洪峰"下的**抗压能力、资源控制能力及公平性**。

DeepSeek-V4-Pro（官方）（20.2s, 1334 tokens）

核心QPS ≥ 1000；P95 ≤ 500ms；接口成功率 ≥ 99.99%，业务层面不得出现超卖。

BENCH_005 - Bug 分析诊断

GLM-5.1（百炼）（59.6s, 3044 tokens）

核心瓶颈在数据库层：ConnectionPoolTimeout 和 Database locked。P95 3200ms 说明大量时间消耗在等待数据库连接和锁释放上。

GLM-5.2（百炼）（60.2s, 2650 tokens）

连接池耗尽、Database locked 导致 SQL 执行严重排队，引发请求超时和错误率 15%。

DeepSeek-V4-Pro（官方）（25.0s, 1657 tokens）

首要瓶颈：数据库连接池被耗尽；关联瓶颈：Database locked 表明严重的锁冲突。

BENCH_007 - Locust 脚本生成

GLM-5.1（百炼）（88.0s, 4928 tokens）

电商秒杀 Locust 脚本：登录(权重5)、浏览商品(权重10)、查看详情(权重8)、参与秒杀(权重2)、查询订单(权重3)。

GLM-5.2（百炼）（82.9s, 6323 tokens）

完整脚本 seckill_locust.py，模拟登录→浏览→详情→秒杀→查订单全流程，含 Token 保存与失败日志。

DeepSeek-V4-Pro（官方）（37.1s, 3089 tokens）

Locust 脚本按权重分配任务，含思考时间、Token 保存和失败日志记录，可直接运行。

成本对比（估算）

模型	总 Token	估算成本	说明
GLM-5.1（百炼）	34,143	0 元（百炼免费额度）	百炼免费额度
GLM-5.2（百炼）	31,605	0 元（百炼免费额度）	百炼免费额度
DeepSeek-V4-Pro（官方）	20,928	约 0.84 元	按官方定价估算

注：百炼 GLM 系列使用免费额度；DeepSeek 按官方定价估算，实际因套餐而异。

场景	推荐模型	理由
追求速度	DeepSeek-V4-Pro（官方）	平均耗时最低，适合批量跑评测
追求 Token 成本	DeepSeek-V4-Pro（官方）	输出更精简，长任务成本更低
追求通过率	GLM-5.1（百炼）	自动评分通过率最高
国内百炼集成	GLM-5.1（百炼）	阿里云百炼调用，国内访问更稳定
复杂代码生成	DeepSeek-V4-Pro（官方）	Locust/脚本类任务表现稳定

🧭 维度对比

维度	GLM-5.1	GLM-5.2	DeepSeek-V4
代码能力	100%	100%	100%
任务规划	100%	100%	100%
多轮对话	100%	100%	100%
工具使用	100%	100%	100%
知识问答	100%	100%	100%

📂 类别对比

类别	GLM-5.1	GLM-5.2	DeepSeek-V4
API 测试脚本生成	100%	100%	100%
Bug 分析诊断	100%	100%	100%
Locust 脚本生成	100%	100%	100%
代码 Review	100%	100%	100%
安全测试数据生成	100%	100%	100%
性能测试方案	100%	100%	100%
测试报告生成	100%	100%	100%
用例生成	100%	100%	100%
用例评审	100%	100%	100%
需求解析	100%	100%	100%

📝 逐任务通过情况

任务ID	类别	GLM-5.1	GLM-5.2	DeepSeek-V4	耗时	Token
BENCH_001	用例生成	✅	✅	✅	67.1s / 74.1s / 29.8s	3720 / 3234 / 2863
BENCH_002	用例评审	✅	✅	✅	55.9s / 69.0s / 25.4s	2990 / 2692 / 1935
BENCH_003	API 测试脚本生成	✅	✅	✅	57.1s / 82.0s / 21.5s	3377 / 3327 / 2275
BENCH_004	性能测试方案	✅	✅	✅	64.7s / 62.8s / 20.2s	3083 / 2825 / 1334
BENCH_005	Bug 分析诊断	✅	✅	✅	59.6s / 60.2s / 25.0s	3044 / 2650 / 1657
BENCH_006	安全测试数据生成	✅	✅	✅	61.5s / 86.2s / 28.4s	4006 / 3748 / 2638
BENCH_007	Locust 脚本生成	✅	✅	✅	88.0s / 82.9s / 37.1s	4928 / 6323 / 3089
BENCH_008	测试报告生成	✅	✅	✅	49.4s / 30.4s / 12.9s	2680 / 1989 / 1029
BENCH_009	需求解析	✅	✅	✅	48.7s / 36.5s / 22.8s	2802 / 2435 / 1699
BENCH_010	代码 Review	✅	✅	✅	63.5s / 35.8s / 29.2s	3513 / 2382 / 2409

写在最后

第一，质量差距在缩小——多数模型在真实测试任务上通过率接近，国产模型在测试工程领域已具备实用能力。

第二，效率差距在扩大——DeepSeek-V4-Pro 在速度和 Token 效率上优势明显；GLM-5.2 作为新版本需关注复杂代码生成任务的稳定性。

第三，新模型上线建议：先用本框架跑 10 条真实任务，再看速度/成本/质量三维数据做选型，不要只看通稿数字。

📌 收藏本文：下次新模型发布，直接用这个框架跑一遍，用数据说话。
🔗 完整源码：测试员周周回复「源码」免费获取评测工具：Benchmark 评测子框架 · 测试人员：测试员周周

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

重磅发布 | 2026年品牌数字营销行业研究报告：市场规模、发展前景与十五五战略地图

AI Agent技术社区

Claude API 接入头格式变化整理：`anthropic-beta` header 与 account verification 实测（Claude Code / Cursor / Cline

上周在给一个内部工具对接 Claude API 时，看到 Anthropic 相关讨论突然多了起来，顺手把接入流程重新走了一遍。发现对 API 用户来说有两处 header 格式值得注意，不确认的话可能会遇到 401 或 403。这篇把我踩的坑和当前方案整理出来，供参考。本文涉及的部分机制（包括这一 beta 字符串、account verification 流程及相关字段名）目前尚未在 Anth

AI Agent技术社区

零成本 AI 模型选型方案——用 API 聚合网关低成本测试 GPT、Claude、DeepSeek

以 BluPaw 为例，聚合了 GPT-4o、Claude Sonnet、DeepSeek V3、Gemini 2.5、Qwen 等主流模型，接口完全兼容 OpenAI SDK。通过 BluPaw 智能路由（简单任务 DeepSeek，复杂任务 Claude），总成本 42 元，省 33%。假设你要做一个 AI 写作助手，需要对比 GPT-4o、Claude Sonnet、DeepSeek V3