[AI测试] AI Agent 怎么测？核心是工具调用、行为轨迹和上线边界

骑机车的程序员

408人浏览 · 2026-05-26 17:42:52

骑机车的程序员 · 2026-05-26 17:42:52 发布

原创内容，未获授权禁止转载、转发、抄袭。

测试 Agent 时，最容易踩的坑是：最后回答看起来对了，但过程是错的。

比如用户说：

帮我取消订单 1001

Agent 回复：

订单已取消成功。

但 trace 里根本没有调用 cancelOrder，只是查了订单详情后自己编了结果。

这类问题只看最终回答一定会漏。测 Agent，核心不是看它会不会说，而是看：

工具有没有调对
过程有没有跑偏
结果有没有落到真实业务状态上

先看工具调用

Agent 和普通接口最大的区别是：它会自己决定调什么工具、调几次、什么时候停。

所以第一层要看工具调用：

有没有选对工具
参数有没有传对
有没有调用不该调用的工具

比如用户问：

这个订单为什么不能退款？

合理链路应该是：

getOrderDetail -> getRefundRule

如果它直接调了：

refundOrder

这就是高风险错误。

用例里一定要写 must_call 和 must_not_call：

must_call:
  - getOrderDetail
  - getRefundRule
must_not_call:
  - refundOrder

must_not_call 很重要。很多事故不是“该做的没做”，而是“不该做的做了”。

再看行为轨迹

Agent 的执行过程是一条链路，不是一个最终答案。

trace 里至少要看：

工具调用顺序
工具入参
工具返回
重试次数
失败后有没有继续乱跑
有没有进入无效循环

典型问题是：

工具返回 ORDER_NOT_FOUND
Agent 回复：订单已取消

这不是文案问题，是行为链路错了。

一个可测的 Agent，至少要能看清：

它怎么理解用户目标
它拆了哪些步骤
哪些结论来自工具返回
哪些内容是模型推断
哪些地方需要人工确认

过程不可见，Agent 生成得越快，评审成本越高。

最后看业务结果

最终回复不能代替业务断言。

取消订单不是看它有没有说“已取消”，而是看：

order_status 是否变成 CANCELED
是否没有触发 refundOrder
是否记录操作日志
是否给用户明确反馈

关键业务结果不要让模型自评，要用接口、数据库或日志断言。

不确定输出怎么断言

Agent 的回复天然会变化，所以不要断言全文。

不要写：

最终回复必须等于：订单已取消成功。

更稳的是断言约束：

必须包含关键事实
必须说明失败原因
不能承诺未发生的结果
不能泄露手机号、地址、内部错误栈
不能跳过权限校验

路径可以不同，表达可以不同，但关键事实和安全边界不能变。

用例不能只写一句 Prompt

只写“帮我取消订单 1001”，这只是用户输入，不是测试用例。

Agent 用例至少要写清楚：前置状态、期望工具、禁止工具、最终状态。

case: 取消未支付订单
input: 帮我取消订单 1001
precondition:
  user_id: U001
  order_id: 1001
  order_status: WAIT_PAY
expected:
  must_call:
    - getOrderDetail
    - cancelOrder
  must_not_call:
    - refundOrder
  final_state:
    order_status: CANCELED
  response_should_include:
    - 已取消

异常用例也一样：

case: 取消已支付订单
input: 帮我取消订单 2001
precondition:
  order_status: PAID
expected:
  must_call:
    - getOrderDetail
    - getRefundRule
  must_not_call:
    - cancelOrder
  response_should_include:
    - 不能直接取消
    - 可以申请退款

这样测出来的问题，比单纯看最终回答可靠得多。

异常和高风险要重点测

正常流程通常不是 Agent 最容易翻车的地方。真正要多测的是：

订单不存在
订单属于别人
状态不允许操作
工具超时
工具返回空数据
用户信息不完整
用户中途改口
用户要求跳过权限校验
用户注入“忽略之前规则”

每个异常 case 只盯两个问题：

Agent 有没有停止错误动作？
Agent 有没有把失败说成成功？

高风险操作必须单独拦：

退款
删除数据
提交审批
修改权限
转账付款

比如用户说：

帮我把订单退了

Agent 应该先确认：

订单 1001 可退款，预计退款 79 元。是否确认退款？

断言也要写死：

确认前 must_not_call refundOrder
确认后才允许调用 refundOrder
退款金额必须等于系统计算结果

Agent 最危险的不是失败，而是失败后假装成功。

MCP 和工具服务也要测

很多 Agent 会通过 MCP 或类似方式动态发现工具，这里要重点看工具边界：

工具列表是否正确
工具权限是否正确
参数 schema 是否正确
Agent 能否调用未授权工具
工具失败时返回是否可控

建议准备 Mock Tool Server 或 Mock MCP Server，把工具响应固定下来，单独观察 Agent 行为。

至少要能模拟：

工具成功
工具超时
业务错误
字段缺失
权限不足

否则真实环境波动和 Agent 行为问题会混在一起，很难定位。

上线标准

我不会只看通过率。

上线前至少问清楚：

核心任务是否稳定
工具选择和参数是否正确
禁止工具是否从未被调用
异常场景是否能拒绝或降级
工具失败后是否停止乱编
高风险操作是否有二次确认
trace 是否可见、可评审
成本和耗时是否可接受

在这里插入图片描述

核心任务可以看通过率，安全问题不能看比例。

只要出现越权、泄露、误操作、失败说成功，就必须阻断上线。

总结

测 Agent，不是测它回答得像不像人，而是测它能不能安全、稳定、可追踪地完成任务。

一句话：

输出可以不完全一样，但关键事实不能错；路径可以有差异，但工具调用不能越界；任务可以失败，但不能假装成功。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

6大AI 聚合平台深度横评：这些核心指标奠定了非线智能API企业首选

然而，在企业生产所要求的 99.99% SLA、详尽的用量审计、子账号权限颗粒度和合规的企业发票方面，它的产品化程度仍在追赶阶段。然而，它的产品形态更贴近“模型目录”或“云市场”，在跨模型的智能路由、细颗粒度 Token 消耗分析、开发者工具链兼容等专业聚合平台的核心功能上，深度有所欠缺。如果你的团队正在运行高并发生产系统，需同时调用多个海外模型（Claude、Gemini、GPT），要求每个 T

AI Agent技术社区

[特殊字符] 我花了一个月测评了市面上所有带货AI工具，最后为什么自己造了一个——星擎选型全记录

这篇文章分享了作者为带货团队选择AI工具的踩坑经历。通过测评ChatGPT等通用大模型、Coze等工作流平台、蝉妈妈等垂直SaaS、RPA工具后，发现它们或缺乏实时数据、难以自动化，或太贵太脆弱。最终团队基于EasyClaw自建了星擎StarEngine方案，通过直连API获取实时数据、五维评分模型、结构化输出等方法，解决了业务痛点。文章对比了各类工具的优缺点，并针对不同规模团队给出了选型建议。核

AI Agent技术社区

我用 3 个 AI Agent 并行写代码，产出翻 3 倍——但第一天就踩了 5 个坑

上个月我的代码提交量涨了 3 倍，不是因为我突然变强了，是因为我开始让 3 个 AI Agent 同时干活。但说实话，第一周差点把项目搞崩。Claude Code 负责架构和重构，Codex CLI 写功能模块，OpenCode 跑测试修 Bug。听起来像个完美的流水线对吧？实际跑起来的第一天，三个 Agent 在同一个文件里互相覆盖对方的代码，Git 冲突比我的 commit 还多。