【评测系列6 扩展版】新模型上线怎么测?

测试员周周 · 14 年测试经验 · 用数据说话 · 测试日期 2026-06-18

新模型发布,媒体通稿满天飞。"XX 模型全面超越 XX"——这些数字你怎么验证?我从测试平台抽了 10 条真实任务,让三个模型各跑一遍,记录耗时、Token 消耗、输出质量。本次对比:GLM-5.1(百炼) vs GLM-5.2(百炼) vs DeepSeek-V4-Pro(官方)

🛑 先说结论

一句话总结:🤝 三个模型通过率相同(100.0%)

  • ✅ 通过率:3 个模型均达到 100% 通过(10/10),质量整体接近。

  • ⚡ 速度:DeepSeek-V4-Pro(官方)最快,比 GLM-5.1(百炼)快 59.0%(25.2s vs 61.5s)。

  • 💰 Token 效率:DeepSeek-V4-Pro(官方)最省,比 GLM-5.1(百炼)省 38.7%(2092 vs 3414 tokens/任务)。

指标

GLM-5.1(百炼)

GLM-5.2(百炼)

DeepSeek-V4-Pro(官方)

通过率

100.0%

100.0%

100.0%

通过/总数

10/10

10/10

10/10

平均耗时

61.5s

62.0s

25.2s

平均 Token

3414

3160

2092

总 Token

34143

31605

20928

我测了什么?怎么测的?

测试平台

基于多 Agent 测试平台的真实使用场景,包含需求解析、用例生成、脚本生成、性能方案、Bug 诊断、安全数据、报告生成等完整测试工程链路。本次 10 条任务 全部来自平台真实场景,不是公开数据集。

10 条评测任务

任务ID

类别

维度

难度

测试内容

BENCH_001

用例生成

任务规划

Medium

根据电商秒杀系统需求生成测试用例

BENCH_002

用例评审

任务规划

Medium

评审测试用例质量并给出改进建议

BENCH_003

API 测试脚本生成

代码能力

Medium

根据测试用例生成 Pytest 自动化脚本

BENCH_004

性能测试方案

任务规划

Hard

设计秒杀接口的性能测试方案

BENCH_005

Bug 分析诊断

知识问答

Hard

分析性能测试中的瓶颈问题

BENCH_006

安全测试数据生成

工具使用

Medium

为登录接口生成模糊测试数据

BENCH_007

Locust 脚本生成

代码能力

Hard

生成电商秒杀场景的 Locust 压测脚本

BENCH_008

测试报告生成

多轮对话

Medium

根据测试结果生成测试报告

BENCH_009

需求解析

任务规划

Easy

从自然语言需求中提取测试要点

BENCH_010

代码 Review

代码能力

Hard

Review 测试代码并给出改进建议

评测方法(关键原则)

  1. 配置模型:GLM-5.1(百炼) + GLM-5.2(百炼) + DeepSeek-V4-Pro(官方)

  2. 固定参数:temperature=0.3, max_tokens=4096

  3. 逐条执行:每条任务调用模型 API,记录输入、输出、耗时、Token

  4. 自动评分:根据预设评价标准自动判定是否通过

  5. 人工复核:检查关键任务输出质量

关键原则:三模型使用完全相同的 prompt;记录真实 API 调用数据;评测框架独立于业务系统。

评测过程:实测日志

🚀 GLM-5.1(百炼) 评测过程

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (67.1s, 3720 tokens)
[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (55.9s, 2990 tokens)
[ 3/10] BENCH_003 (API 测试脚本生成, Medium) ... ✅ (57.1s, 3377 tokens)
[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (64.7s, 3083 tokens)
[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (59.6s, 3044 tokens)
[ 6/10] BENCH_006 (安全测试数据生成, Medium) ... ✅ (61.5s, 4006 tokens)
[ 7/10] BENCH_007 (Locust 脚本生成, Hard) ... ✅ (88.0s, 4928 tokens)
[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (49.4s, 2680 tokens)
[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (48.7s, 2802 tokens)
[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (63.5s, 3513 tokens)

✅ 评测完成: GLM-5.1(百炼)
通过率: 100.0% (10/10) | 平均耗时: 61.5s | 平均 Token: 3414

🚀 GLM-5.2(百炼) 评测过程

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (74.1s, 3234 tokens)
[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (69.0s, 2692 tokens)
[ 3/10] BENCH_003 (API 测试脚本生成, Medium) ... ✅ (82.0s, 3327 tokens)
[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (62.8s, 2825 tokens)
[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (60.2s, 2650 tokens)
[ 6/10] BENCH_006 (安全测试数据生成, Medium) ... ✅ (86.2s, 3748 tokens)
[ 7/10] BENCH_007 (Locust 脚本生成, Hard) ... ✅ (82.9s, 6323 tokens)
[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (30.4s, 1989 tokens)
[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (36.5s, 2435 tokens)
[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (35.8s, 2382 tokens)

✅ 评测完成: GLM-5.2(百炼)
通过率: 100.0% (10/10) | 平均耗时: 62.0s | 平均 Token: 3160

🚀 DeepSeek-V4-Pro(官方) 评测过程

[ 1/10] BENCH_001 (用例生成, Medium) ... ✅ (29.8s, 2863 tokens)
[ 2/10] BENCH_002 (用例评审, Medium) ... ✅ (25.4s, 1935 tokens)
[ 3/10] BENCH_003 (API 测试脚本生成, Medium) ... ✅ (21.5s, 2275 tokens)
[ 4/10] BENCH_004 (性能测试方案, Hard) ... ✅ (20.2s, 1334 tokens)
[ 5/10] BENCH_005 (Bug 分析诊断, Hard) ... ✅ (25.0s, 1657 tokens)
[ 6/10] BENCH_006 (安全测试数据生成, Medium) ... ✅ (28.4s, 2638 tokens)
[ 7/10] BENCH_007 (Locust 脚本生成, Hard) ... ✅ (37.1s, 3089 tokens)
[ 8/10] BENCH_008 (测试报告生成, Medium) ... ✅ (12.9s, 1029 tokens)
[ 9/10] BENCH_009 (需求解析, Easy) ... ✅ (22.8s, 1699 tokens)
[10/10] BENCH_010 (代码 Review, Hard) ... ✅ (29.2s, 2409 tokens)

✅ 评测完成: DeepSeek-V4-Pro(官方)
通过率: 100.0% (10/10) | 平均耗时: 25.2s | 平均 Token: 2092

评测结果:数据说话

总体对比

指标

GLM-5.1(百炼)

GLM-5.2(百炼)

DeepSeek-V4-Pro(官方)

通过率

100.0%

100.0%

100.0%

通过/总数

10/10

10/10

10/10

平均耗时

61.5s

62.0s

25.2s

平均 Token

3414

3160

2092

总 Token

34143

31605

20928

图片

相对 GLM-5.1(百炼)的速度提升(正值表示比基准更快)

任务

GLM-5.2(百炼)

DeepSeek-V4-Pro(官方)

BENCH_001

-10.5% +55.6%

BENCH_002

-23.4% +54.6%

BENCH_003

-43.6% +62.3%

BENCH_004

+2.9% +68.8%

BENCH_005

-1.1% +58.1%

BENCH_006

-40.3% +53.8%

BENCH_007

+5.8% +57.8%

BENCH_008

+38.4% +73.9%

BENCH_009

+24.9% +53.1%

BENCH_010

+43.7% +54.1%

注:GLM-5.1(百炼)为基准(0%),负值表示比基准更慢。

图片

逐任务对比

任务

难度

GLM-5.1 耗时

GLM-5.2 耗时

DS 耗时

GLM-5.1 Token

GLM-5.2 Token

DS Token

BENCH_001

Medium

67.1s

74.1s

29.8s

3720

3234

2863

BENCH_002

Medium

55.9s

69.0s

25.4s

2990

2692

1935

BENCH_003

Medium

57.1s

82.0s

21.5s

3377

3327

2275

BENCH_004

Hard

64.7s

62.8s

20.2s

3083

2825

1334

BENCH_005

Hard

59.6s

60.2s

25.0s

3044

2650

1657

BENCH_006

Medium

61.5s

86.2s

28.4s

4006

3748

2638

BENCH_007

Hard

88.0s

82.9s

37.1s

4928

6323

3089

BENCH_008

Medium

49.4s

30.4s

12.9s

2680

1989

1029

BENCH_009

Easy

48.7s

36.5s

22.8s

2802

2435

1699

BENCH_010

Hard

63.5s

35.8s

29.2s

3513

2382

2409

关键发现

  • GLM-5.2(百炼)

    :平均耗时 62.0s,比基准快 -0.8%;平均 Token 3160。

  • 在 10 条任务中有 5 条比 GLM-5.1(百炼) 更快。

  • DeepSeek-V4-Pro(官方)

    :平均耗时 25.2s,比基准快 59.0%;平均 Token 2092。

  • 在 10 条任务中有 10 条比 GLM-5.1(百炼) 更快。

输出质量对比(抽样)

BENCH_001 - 用例生成

GLM-5.1(百炼)(67.1s, 3720 tokens)

针对电商秒杀系统的特点,除了常规的功能测试外,**并发测试(高并发抢购、防超卖)和安全性测试(防刷、防绕过)**是核心。以下为您生成的结构化测试用例,分为四个模块:商品查询、秒杀活动查询、秒杀核心接口、订单查询及并发/安全专项。

GLM-5.2(百炼)(74.1s, 3234 tokens)

这是一份针对电商秒杀系统的接口测试用例。测试用例分为**功能测试**、**业务规则测试**、**并发与性能测试**以及**安全与异常测试**四个维度。

DeepSeek-V4-Pro(官方)(29.8s, 2863 tokens)

以下是根据需求设计的测试用例,覆盖接口功能、业务规则及异常场景。用例编号 TC-P-001 起,覆盖商品查询、秒杀核心接口等模块。

BENCH_004 - 性能测试方案

GLM-5.1(百炼)(64.7s, 3083 tokens)

针对秒杀接口的高并发、低库存、瞬时流量特征,性能测试方案必须聚焦于**瞬时高并发冲击**和**防超卖/防重卖**。峰值 QPS 目标:至少 1000 QPS 瞬时冲击。

GLM-5.2(百炼)(62.8s, 2825 tokens)

针对库存100件、并发1000人的秒杀场景,核心目标是验证系统在"洪峰"下的**抗压能力、资源控制能力及公平性**。

DeepSeek-V4-Pro(官方)(20.2s, 1334 tokens)

核心QPS ≥ 1000;P95 ≤ 500ms;接口成功率 ≥ 99.99%,业务层面不得出现超卖。

BENCH_005 - Bug 分析诊断

GLM-5.1(百炼)(59.6s, 3044 tokens)

核心瓶颈在数据库层:ConnectionPoolTimeout 和 Database locked。P95 3200ms 说明大量时间消耗在等待数据库连接和锁释放上。

GLM-5.2(百炼)(60.2s, 2650 tokens)

连接池耗尽、Database locked 导致 SQL 执行严重排队,引发请求超时和错误率 15%。

DeepSeek-V4-Pro(官方)(25.0s, 1657 tokens)

首要瓶颈:数据库连接池被耗尽;关联瓶颈:Database locked 表明严重的锁冲突。

BENCH_007 - Locust 脚本生成

GLM-5.1(百炼)(88.0s, 4928 tokens)

电商秒杀 Locust 脚本:登录(权重5)、浏览商品(权重10)、查看详情(权重8)、参与秒杀(权重2)、查询订单(权重3)。

GLM-5.2(百炼)(82.9s, 6323 tokens)

完整脚本 seckill_locust.py,模拟登录→浏览→详情→秒杀→查订单全流程,含 Token 保存与失败日志。

DeepSeek-V4-Pro(官方)(37.1s, 3089 tokens)

Locust 脚本按权重分配任务,含思考时间、Token 保存和失败日志记录,可直接运行。

成本对比(估算)

模型

总 Token

估算成本

说明

GLM-5.1(百炼)

34,143

0 元(百炼免费额度)

百炼免费额度

GLM-5.2(百炼)

31,605

0 元(百炼免费额度)

百炼免费额度

DeepSeek-V4-Pro(官方)

20,928

约 0.84 元

按官方定价估算

注:百炼 GLM 系列使用免费额度;DeepSeek 按官方定价估算,实际因套餐而异。

推荐建议

场景

推荐模型

理由

追求速度

DeepSeek-V4-Pro(官方)

平均耗时最低,适合批量跑评测

追求 Token 成本

DeepSeek-V4-Pro(官方)

输出更精简,长任务成本更低

追求通过率

GLM-5.1(百炼)

自动评分通过率最高

国内百炼集成

GLM-5.1(百炼)

阿里云百炼调用,国内访问更稳定

复杂代码生成

DeepSeek-V4-Pro(官方)

Locust/脚本类任务表现稳定

🧭 维度对比

维度

GLM-5.1

GLM-5.2

DeepSeek-V4

代码能力

100%

100%

100%

任务规划

100%

100%

100%

多轮对话

100%

100%

100%

工具使用

100%

100%

100%

知识问答

100%

100%

100%

📂 类别对比

类别

GLM-5.1

GLM-5.2

DeepSeek-V4

API 测试脚本生成

100%

100%

100%

Bug 分析诊断

100%

100%

100%

Locust 脚本生成

100%

100%

100%

代码 Review

100%

100%

100%

安全测试数据生成

100%

100%

100%

性能测试方案

100%

100%

100%

测试报告生成

100%

100%

100%

用例生成

100%

100%

100%

用例评审

100%

100%

100%

需求解析

100%

100%

100%

📝 逐任务通过情况

任务ID

类别

GLM-5.1

GLM-5.2

DeepSeek-V4

耗时

Token

BENCH_001

用例生成

67.1s / 74.1s / 29.8s

3720 / 3234 / 2863

BENCH_002

用例评审

55.9s / 69.0s / 25.4s

2990 / 2692 / 1935

BENCH_003

API 测试脚本生成

57.1s / 82.0s / 21.5s

3377 / 3327 / 2275

BENCH_004

性能测试方案

64.7s / 62.8s / 20.2s

3083 / 2825 / 1334

BENCH_005

Bug 分析诊断

59.6s / 60.2s / 25.0s

3044 / 2650 / 1657

BENCH_006

安全测试数据生成

61.5s / 86.2s / 28.4s

4006 / 3748 / 2638

BENCH_007

Locust 脚本生成

88.0s / 82.9s / 37.1s

4928 / 6323 / 3089

BENCH_008

测试报告生成

49.4s / 30.4s / 12.9s

2680 / 1989 / 1029

BENCH_009

需求解析

48.7s / 36.5s / 22.8s

2802 / 2435 / 1699

BENCH_010

代码 Review

63.5s / 35.8s / 29.2s

3513 / 2382 / 2409

写在最后

第一,质量差距在缩小——多数模型在真实测试任务上通过率接近,国产模型在测试工程领域已具备实用能力。

第二,效率差距在扩大——DeepSeek-V4-Pro 在速度和 Token 效率上优势明显;GLM-5.2 作为新版本需关注复杂代码生成任务的稳定性。

第三,新模型上线建议:先用本框架跑 10 条真实任务,再看速度/成本/质量三维数据做选型,不要只看通稿数字。

📌 收藏本文:下次新模型发布,直接用这个框架跑一遍,用数据说话。
🔗 完整源码:测试员周周回复「源码」免费获取 看文章顶部的方式找到我

评测工具:Benchmark 评测子框架 · 测试人员:测试员周周    全网同名同号

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐