探索大语言模型工具使用能力的新基准：GTA详解

GTA基准的提出标志着LLM工具使用评估向真实场景迈出了重要一步。实验结果显示，即使是最先进的LLMs在面对现实问题时仍表现有限，尤其是在多模态推理和参数准确预测方面。这一研究不仅揭示了当前模型的瓶颈，更为通用工具代理的发展指明了方向——未来的研究需要在多模态理解、动态工具规划和参数精确控制等方面取得突破。随着GTA等更贴近现实的评估基准的出现，我们有望见证更具实用性的AI助手的快速发展。

这是Jamon

862人浏览 · 2025-06-27 18:59:09

这是Jamon · 2025-06-27 18:59:09 发布

论文地址： https://openreview.net/pdf?id=akEt8QAa6V

在这里插入图片描述

在人工智能领域，大语言模型（LLMs）与外部工具的集成已成为迈向通用人工智能助手的重要路径。然而，现有工具使用评估与真实场景之间存在明显差距，无法有效揭示模型在现实问题中的解决能力。上海交通大学和上海人工智能实验室的研究团队提出了一个全新的基准——GTA（General Tool Agents Benchmark），旨在更真实地评估LLMs的工具使用能力。本文将深入解析GTA的设计理念、核心特点、实验发现以及对未来研究的启示。

一、研究背景：现有评估的局限性

当前LLM工具使用评估主要存在三大痛点：

查询真实性不足：多数基准使用AI生成的查询，这些查询往往步骤明确、工具提示明显，无法模拟人类在现实中的模糊需求。例如ToolBench的查询会直接列出相关工具，如"需要创建数学方程的ASCII艺术表示（相关工具：figlet, matheq）"
工具模拟化：许多评估使用虚拟工具或文本描述模拟工具调用，无法反映真实工具执行的复杂性。例如APIBench仅关注API调用的语法正确性，而非实际执行效果
模态单一化：现有评估以纯文本交互为主，缺乏对图像、表格等多模态输入的支持，与真实场景脱节

这些不足导致现有评估无法准确衡量LLMs在真实场景中的工具规划、调用和问题解决能力。研究团队指出，即使是先进的GPT-4在面对真实用户查询时也表现不佳，这凸显了开发更贴近现实的评估基准的迫切性。

二、GTA基准：三大核心创新设计

在这里插入图片描述

GTA通过三大支柱构建了更真实的评估环境，其设计理念可概括为"三个真实"：

（一）真实用户查询：隐式工具需求的现实任务

GTA的229个任务均由人类设计，具有以下特点：

目标明确但步骤隐式：例如"根据BBC Good Food的食谱，这道菜需要多少克碎猪肉？"，用户未明确提及需要图像识别和网络搜索工具
多步骤解决需求：每个查询平均需要2-4个工具步骤，如从识别菜单图像中的食材，到搜索具体食谱，再到计算用量
避免工具提示：查询中不直接提及工具名称，如"将表格转换为示例所示的统计图"而非"使用OCR和Plot工具转换表格"

与AI生成的查询对比（如下表），GTA的查询更贴近人类真实需求，迫使LLM进行深度推理而非简单匹配工具提示。

方法	查询示例
ToolBench	“需要创建数学方程的ASCII艺术表示（相关工具：figlet, matheq）”
GTA	“将表格转换为示例所示的统计图”

（二）真实部署工具：覆盖四大类14种实用工具

GTA提供了一个包含14种真实工具的评估平台，按功能分为四大类：

感知类：OCR（文本识别）、图像描述、物体检测等
操作类：绘图框、文字添加、谷歌搜索等
逻辑类：计算器、数学绘图、方程求解器等
创意类：文本生成图像、图像风格转换等

每个工具均为可执行的真实组件，而非文本模拟。例如GoogleSearch工具会实际调用搜索引擎，返回真实搜索结果；TextToImage会生成实际图像。这种设计确保评估能反映模型在真实工具交互中的表现，包括处理工具返回结果的能力。

（三）真实多模态输入：贴近现实的复杂情境

GTA为每个查询配备1-2个真实图像文件作为上下文，包括：

空间场景：地图、餐厅布局等
网页截图：食谱页面、产品介绍等
表格/代码片段：数据表格、数学公式图像等
手写/印刷材料：菜单、笔记等

例如一个查询要求"在地图上圈出评分最高的餐厅"，并提供包含餐厅评分的地图截图。LLM需要先通过OCR识别评分，再使用DrawBox工具标记位置，这模拟了现实中通过视觉信息辅助决策的过程。

三、GTA数据集构建与统计

（一）数据构建流程

GTA的构建采用"专家示例+人工扩展"的方法：

专家设计初始示例：涵盖不同场景和工具组合，如食谱计算、图像分析等
多样化扩展：标注者根据示例扩展新查询，遵循三大策略：
- 保持工具集不变，改变场景（如从计算啤酒价格扩展到计算鸡蛋用量）
- 替换部分工具（如从使用GoogleSearch改为CountGivenObject）
- 调整工具数量（如从3工具减少到2工具）
工具链验证：通过真实调用工具验证每个查询的可执行性，确保工具链有效

（二）数据集统计

GTA数据集的关键统计如下：

查询数量：229个真实任务
图像文件：252个真实图像
工具覆盖：14种工具，涉及1-4个工具组合
任务类型：
- 客观查询：156个（如数值计算）
- 主观查询：16个（如解释图像含义）
- 图像生成查询：57个（如根据描述生成图像）
步骤分布：多数任务需要2-4个步骤（如图3(a)）
工具组合：感知+逻辑（41%）和感知+操作（35%）为最常见组合（如图3(b)）

四、实验评估：现有LLMs的真实表现

（一）评估设置

研究团队对16个主流LLMs进行了评估，包括：

API模型：GPT-3.5, GPT-4, GPT-4o, Claude-3, Mistral-Large
开源模型：Llama-3系列、Qwen1.5系列、Mixtral、Yi系列等

评估采用两种模式：

分步模式：评估模型在已知前n步时预测下一步的能力，聚焦工具选择和参数预测
端到端模式：模型自主调用工具解决问题，反映实际任务执行能力

评估指标：

InstAcc（指令执行准确率）：衡量模型在执行过程中无错误完成各步骤的比例，用以评估其指令遵循能力。
ToolAcc（工具选择准确率）：评估模型选择正确工具的准确程度。
ArgAcc（参数名称预测准确率）：衡量模型对工具参数名称预测的准确性。
SummAcc（总结准确率）：反映模型在考虑所有前置工具使用步骤后，对最终答案总结的准确程度。
AnsAcc（答案准确率） 对于端到端模式（end-to-end mode），我们使用 AnsAcc（答案准确率）来衡量最终执行结果的正确性。

（二）主要发现

真实场景对LLMs极具挑战性：
- GPT-4在端到端模式下仅能完成46.59%的任务
- 多数开源模型完成率低于25%，如Yi-6B-Chat仅0.58%
- 图像生成任务的完成率普遍低于文本任务
参数预测成为最大瓶颈：
- 参数预测准确率（ArgAcc）与最终答案准确率（AnsAcc）的相关性最高
- 例如Llama-3-70B-Instruct的InstAcc和ToolAcc高于Qwen1.5-14B-Chat，但ArgAcc更低，导致最终答案准确率更低
- 常见参数错误包括格式不正确（如非JSON格式）、参数值错误等
模型行为模式差异显著：
- GPT系列：平衡工具调用频率和指令遵循能力，表现最佳
- Qwen系列：工具调用保守，但指令遵循能力强
- Yi/Deepseek系列：工具调用频繁但格式错误率高
错误类型分析：
- GPT-4主要错误：无动作（38.7%），即模型仅进行内部思考而不调用工具
- Llama-3主要错误：格式错误（45.4%），如参数不符合JSON格式（如下表）