大模型GUI系列论文阅读 DAY3续5：《WebPilot:AVersatile and Autonomous Multi-Agent System for Web Task Execution 》

基于大语言模型（LLM）的自主代理通常在执行需要动态交互的复杂网页任务时失败，这主要是由于这些环境固有的不确定性和复杂性。现有的基于 LLM 的网页代理通常依赖于针对特定状态和操作的固定、专家设计的策略，缺乏适应新任务所需的灵活性和通用性。相比之下，人类擅长探索未知环境，不断根据新的观察调整策略，并通过探索来解决模糊性。为了模仿人类的适应能力，网页代理需要战略性探索和复杂的决策能力。

feifeikon

897人浏览 · 2025-01-21 23:54:53

feifeikon · 2025-01-21 23:54:53 发布

摘要翻译：

针对这一问题，我们开发了 WebPilot，一个具有双重优化策略的多代理系统，以改进 MCTS，使其更好地处理复杂的网页环境。具体而言：

全局优化（Global Optimization）：通过将任务分解为可管理的子任务，生成高层次的执行计划，并通过对新观察和先前子任务尝试的反思性分析不断优化该计划，从而专注搜索过程，并减轻传统 MCTS 在庞大动作空间下的挑战。
局部优化（Local Optimization）：使用专门设计的 MCTS 执行每个子任务，针对复杂环境，有效处理不确定性，并通过对新观察的逐步调整来管理不完全信息。

在 WebArena 和 MiniWoB++ 基准测试上的实验结果证明了 WebPilot 的有效性。值得注意的是，在 WebArena 上，WebPilot 搭配 GPT-4 达到了最先进（SOTA）的性能，相比当前基于树搜索的方法，成功率相对提高了 93%。

WebPilot 代表了自主代理在通用任务执行能力上的重要进步，为更高级和可靠的决策制定奠定了基础。我们的代码已公开发布，地址为：
github.com/WebPilot。

1. 引言（翻译）

大语言模型（LLMs）（Yang et al., 2023; Achiam et al., 2023; Team et al., 2023; Anthropic, 2024）在推理能力方面的进步，极大地扩展了开发能够在复杂、动态环境中自主导航和交互的网页代理的潜力（Lai et al., 2024; Deng et al., 2024）。要充分发挥这一潜力，这些代理必须在以下任务中表现出色：复杂信息检索、长期任务执行，以及整合多种信息来源（Wang et al., 2024; Zhou et al., 2023b）。

然而，尽管 LLM 具有先进的推理能力，但当前基于 LLM 的网页代理（Sodhi et al., 2024; Ma et al., 2023）在执行需要动态交互的复杂网页任务时，仍然存在不足。这一局限主要来源于其过度依赖针对特定状态和操作的固定、专家设计的策略。这些策略虽然能有效处理定义明确的场景，但缺乏在真实世界网页环境的不确定性和变化中进行自适应的灵活性和通用性，难以应对新的任务。

相比之下，人类擅长处理复杂的网页任务，这归功于他们的认知灵活性（Daw, Niv, and Dayan, 2005），使他们能够探索未知环境、根据新的观察动态调整计划，并通过试错来解决不确定性。这种适应能力使人类能够在不确定的环境中导航，基于不完整的信息做出决策，并实时修改策略。**蒙特卡洛树搜索（MCTS）**在模拟人类的网页导航策略方面表现良好。MCTS 通过在树搜索过程中扩展节点来探索未知环境，帮助网页代理发现有效的操作，并在搜索过程中调整策略，逐步优化每个节点的操作，就像人类在面对新情况时不断调整其行动一样。当遇到“死胡同”或不确定路径（例如具有低潜力或不确定结果的节点）时，MCTS 重新评估并探索替代路径，从而弥补 LLM 在处理未知网页环境方面的不足。

尽管 MCTS 具有潜力，但传统的 MCTS（Browne et al., 2012）在处理复杂网页环境时仍然面临挑战，例如：

庞大的动作空间
不可预测的状态转换
不完整的信息

虽然最近的方法（如 LLM-MCTS（Zhao, Lee, and Hsu, 2024）和 LATS（Zhou et al., 2023a））整合了 LLM 以提供启发式指导，但它们主要适用于较小动作空间和低复杂度的任务，因此在现实世界场景中的效果有限。类似地，RAP 方法（Hao）在推理路径优化方面表现良好，但缺乏在复杂环境中进行动态交互的灵活性。此外，MCTS 的奖励机制在复杂环境中仍然存在挑战；当前方法要么依赖直接的环境奖励（Zhou et al., 2023a），这在真实任务中难以实现，要么使用过于简单的评分系统（如二元或低分辨率评分（Koh et al., 2024）），未能准确捕捉网页环境的复杂和不断变化的特性。这些限制凸显了需要更具适应性和健壮性的 MCTS 方法，以有效导航复杂的网页任务。

WebPilot 的提出

针对这些挑战，我们提出 WebPilot，这是一个基于 MCTS 原则的多智能体系统，采用双重优化策略，专门针对复杂环境的增强适应性。WebPilot 依次应用以下两个优化阶段：

全局优化（Global Optimization）
- 通过任务分解和反思性分析来优化高层次计划，使系统能够动态适应不断变化的目标，同时有效管理庞大的动作空间。
局部优化（Local Optimization）
- 针对每个子任务，采用定制化的 MCTS 方法，逐步优化决策，应对不确定性，并根据新观察进行调整。

全局优化阶段

全局优化阶段由**计划器（Planner）、控制器（Controller）和提取器（Extractor）**驱动，主要包括：

分层任务分解（HTD）
- 计划器将复杂任务拆解为可管理的子任务，缩小搜索范围，有效解决传统 MCTS 面临的庞大动作空间挑战。
反思性任务调整（RTA）
- 结合新的观察结果，对高层计划进行调整，使 WebPilot 能够动态适应环境变化。
控制器监控子任务进度
- 评估子任务的完成情况，并在必要时触发重新执行，确保任务完成的准确性和适应性。
提取器
- 收集执行任务所需的关键信息，以支持整个任务执行过程。

局部优化阶段

局部优化阶段由**探索器（Explorer）、验证器（Verifier）、评估器（Appraiser）和控制器（Controller）**组成，主要策略包括：

目标导向选择（GOS）
- 利用 LLM 直觉性，引导 WebPilot 快速定位最有希望的状态，以完成子任务。
反思增强节点扩展（RENE）
- 通过实时反馈不断优化策略，随着条件变化进行调整。
动态评估与模拟（DES）
- 持续评估当前操作，结合前向模拟来预测潜在结果。
最大价值回传（MVB）
- 优先选择最具潜力的路径，基于最大未来回报更新值。

通过结合局部和全局优化策略，WebPilot 确保灵活的任务执行，充分利用多智能体系统的专门能力，优于现有网页代理在动态环境中的表现。

实验结果

我们在 MiniWoB++（Liu et al., 2018）和 WebArena（Zhou et al., 2023b）等具有不同复杂度的基准环境中评估了 WebPilot。实验结果表明：

在 WebArena 中，WebPilot 达到了 37.2% 的成功率，超越了当前最先进的方法 SteP（Sodhi et al., 2024），后者依赖于专家设计的固定策略。
WebPilot 在基于树搜索的方法上表现出 93% 的相对成功率提升。
即使使用 GPT-3.5，WebPilot 依然能够与基于 GPT-4 的最先进方法竞争，取得 29.1% 的成功率。

这些结果证明 WebPilot 在应对真实世界网页环境的不确定性和复杂性方面具有卓越的能力。

主要贡献

提出 WebPilot——一个自主多智能体系统，结合全局和局部 MCTS 优化策略，实现人类般的探索、适应和决策能力。
开发分层反思机制，在全局和局部优化中分别实施战略反思和战术反思，显著提高在变化环境中的学习和决策能力。
引入双面自我奖励机制，结合操作有效性和目标导向潜力，以精确评估动态环境中的决策。
在挑战性的基准测试中取得 SOTA 性能，展现了复杂现实任务中的自主代理能力进步。

2. 相关工作（翻译）

在本节中，我们对基于大语言模型（LLM）的网页代理和基于蒙特卡洛树搜索（MCTS）的代理进行对比分析，并在表 1 中提供了详细的比较。有关这些代理的更深入分析，请参阅附录。

2.1 基于 LLM 的自主网页代理

近期 LLM 的发展，为开发能够利用 LLM 推理能力与网页环境交互的网页代理铺平了道路。一类基于 LLM 的网页代理（Kim, Baldi, and McAleer, 2024; Sun et al., 2024; Prasad et al., 2023; Fu et al., 2024; Ma et al., 2023; Zheng et al., 2023; Tao et al., 2023）主要依赖于特定环境的状态-动作对，这些对被嵌入在演示数据中，以响应特定的观察。例如，SteP（Sodhi et al., 2024）是 WebArena（Zhou et al., 2023b）当前的最先进方法（SOTA），该方法依赖于僵化的、专家设计的策略，专门针对特定的状态和操作。然而，这些代理通常难以探索和适应现实世界中前所未见的网页任务。

另一类网页代理（Li et al., 2023; Zhou et al., 2023a; Pan et al., 2024; Koh et al., 2024）采用自由探索的策略，致力于发现未知环境。尽管方法如 Auto Eval & Refine（Pan et al., 2024）在 Reflexion 框架（Shinn et al., 2024）中引入了评估器，LM-Tree Search（Koh et al., 2024）在真实环境中采用基于搜索的方法，但这些代理在面对复杂任务时仍然存在挑战，有很大的改进空间。

相比之下，WebPilot 采用了一种多智能体系统，利用双重优化策略，擅长探索未见任务，并基于新的观察动态调整策略和行动。这种能力使得 WebPilot 在更复杂的环境中展现出卓越的适应能力。

2.2 LLM-MCTS 应用

MCTS 最初是为围棋（Go）游戏开发的（Coulom, 2006; Browne et al., 2012），因其在处理探索问题上的高效性而著称。在上置信限树（UCT）方法（Kocsis 和 Szepesvári, 2006）的增强下，MCTS 已广泛应用于机器人技术（Zhao, Lee, and Hsu, 2024）、策略游戏（Jang et al., 2021）以及自动驾驶（Lenz, Kessler, and Knoll, 2016）等领域。

近年来，研究人员将 LLM 与 MCTS 结合，应用于各种自然语言处理（NLP）任务，如：

问答（QA）（Hong et al., 2023; Xie et al., 2024; Chi, Yang, and Klein, 2024）
提示优化技术（Prompt Refinement）（Wang et al., 2023）
复杂数学推理问题（Tian et al., 2024; Zhang et al., 2024）

在此基础上，基于 LLM 的代理也开始将 MCTS 纳入，以增强其探索和决策能力。例如，LATS（Zhou et al., 2023a）将 MCTS 应用于简单的网页任务。然而，传统的 MCTS 方法在处理网页任务时往往会遇到困难，主要表现在：

庞大的动作空间
不可预测的状态转换
不完整的信息

WebPilot 通过采用专门设计的 MCTS 策略来应对这些挑战，能够有效地在高度不确定的情况下导航和优化决策过程。

3. 方法论（翻译）

在本节中，我们正式描述网页探索任务，并强调这些环境的不确定性和动态性所带来的挑战。为了克服这些挑战，WebPilot 采用双重优化策略，即全局优化（Global Optimization）和局部优化（Local Optimization）。

在 全局优化阶段（详见第 3.2 节），WebPilot 生成高层次的执行计划，并通过反思性分析不断优化这些计划。
在 局部优化阶段（详见第 3.3 节），WebPilot 进行低层次的策略探索。

整个流程在算法 1 中进行了概述，更多细节见附录。

3.1 问题定义

我们的目标是使基于 LLM 的网页代理能够在网页环境 E 中有效地完成任务 T，并模仿人类的网页导航策略。网页环境本质上是部分可观察的，这限制了代理所能获得的信息，从而增加了解决问题的难度。这种部分可观察性是由于网页内容可能会动态变化，代理在与网页元素交互之前，无法完全预测或知晓其状态（如更新的内容或可用性）。因此，代理必须在不确定和信息不完整的条件下做出决策。

参考 WebArena（Zhou et al., 2023b），我们使用**可访问性树（actree）**来表示网页的结构和交互元素。然而，由于缺乏特定的网页领域知识，LLM 代理通常难以识别或利用各种网页元素的功能。因此，代理必须主动探索环境，以收集有关任务和网页元素功能的关键信息，在面对不确定性和信息不完整的情况下做出明智的决策。

具体而言，该过程可以建模为部分可观察的马尔可夫决策过程（POMDP），其中：

状态空间 SSS
动作空间 AAA
观察空间 OOO
状态转移函数 F:S×A→SF: S \times A \rightarrow SF:S×A→S

代理在每个时间步 ttt 时基于部分观察 oto_tot 进行决策。每个动作 ata_tat 导致新的状态 st+1s_{t+1}st+1 并生成新的观察 ot+1o_{t+1}ot+1。环境定义的评估函数 eval(a,s)eval(a, s)eval(a,s) 用于评估任务执行的成功与否。
在此，a={a1,...,an}a = \{a_1, ..., a_n\}a={a1,...,an} 表示已执行的动作序列，而 s={s1,...,sn}s = \{s_1, ..., s_n\}s={s1,...,sn} 表示相应的中间状态序列。

3.2 全局优化：通过反思性调整进行自适应策略优化

全局优化阶段模拟人类认知，利用先验知识生成初始计划，以应对不熟悉的任务。然而，由于缺乏针对特定网页的领域知识，传统的固定计划通常难以灵活调整。WebPilot 通过以下方法解决此问题：

任务分解（Hierarchical Task Decomposition, HTD）：
- 通过将复杂任务拆解为更易管理的子任务，缩小搜索范围，提高任务执行的精确性。
反思性任务调整（Reflective Task Adjustment, RTA）：
- 通过对新观察的分析，调整高层次计划，使系统动态适应不断变化的目标。
控制器（Controller）：
- 监控子任务的执行进度，评估子任务的完成情况，并在必要时触发重新执行，确保任务的准确性。
提取器（Extractor）：
- 在任务执行过程中收集关键信息，支持任务执行。

全局优化：通过反思性调整进行自适应策略优化（翻译）

由于网页环境的固有动态性，初始计划可能会遗漏关键细节，随着环境的变化，其有效性可能会下降。为了解决这一问题，WebPilot 通过对新的观察和先前子任务结果的反思性分析，不断优化初始计划。全局优化主要包括两个关键组件：分层任务分解（HTD） 和 反思性任务调整（RTA），这些过程由**计划器（Planner）、控制器（Controller）和提取器（Extractor）**协同完成。

1. 分层任务分解（HTD）

HTD 由计划器（Planner）执行，首先将复杂任务分解为更小、可管理的子任务 TiT_iTi，从而创建一个灵活的高层计划，使其能够适应不确定和不断变化的网页环境。在生成计划时，计划器仅依赖少量高层演示示例，以确保任务分解的稳健性和适应性。附录中提供了一个具体示例。

这种方法允许 WebPilot 根据任务的不同方面动态调整策略，使其能够快速响应环境变化。与依赖扩展搜索空间的基于搜索的网页代理（如 Koh et al., 2024）不同，HTD 确保了每个子任务的针对性和执行效率。该方法使得 WebPilot 可以在实时条件下调整子任务，而无需对整个任务执行过程进行彻底修改。

WebPilot 采用 MCTS 增强的决策策略（将在第 3.3 节局部优化中详细讨论），有效减少不必要的搜索路径，并在专注范围内优化决策过程，从而克服传统 MCTS 在庞大动作空间中面临的挑战。HTD 的有效性通过消融实验得到验证，详细内容请参见第 4.4 节。

2. 反思性任务调整（RTA）

在局部优化阶段（第 3.3 节），每个子任务完成后，WebPilot 会重新评估并优化其高层计划，以确保与整体任务 TTT 保持一致。在**控制器（Controller）和计划器（Planner）**的指导下，该过程对每个子任务的执行与预期结果进行批判性评估，使 WebPilot 能够基于新的观察结果重新调整策略。

控制器的作用
- 评估当前观察 oto_tot 和已执行的动作序列 aaa 是否与子任务 TiT_iTi 一致。
- 生成子任务完成度评估 ComptComptCompt。
- 如果子任务未完成，控制器会触发重新执行，并在此之前生成子任务反思（Rsub），以避免重复相同错误。
提取器（Extractor）
- 持续收集关键信息，以支持任务的成功完成。

附录中提供了关于控制器如何处理任务完成度和子任务反思的详细示例。

局部优化：基于 MCTS 增强的决策策略（翻译）

WebPilot 的局部优化阶段借鉴了人类在执行子任务 TiT_iTi 时所需的适应能力，针对子任务特定目标（Objectivei_ii）进行优化。这些目标定义了该子任务需要实现的预期成果或里程碑，**探索器（Explorer）、验证器（Verifier）和评估器（Appraiser）**共同完成该任务：

探索器（Explorer）：识别最优操作。
验证器（Verifier）：确保这些操作的有效性和非冗余性。
评估器（Appraiser）：评估操作的即时效果及其实现目标的潜力，提供持续反馈，使评估更为细致和准确。

在整个过程中，**控制器（Controller）**负责评估子任务是否完成，并确定是否需要进一步的操作，以确保与整体任务的一致性。

局部优化阶段的四个关键步骤（图 2 展示）

目标导向选择（Goal-Oriented Selection，GOS）
- 结合 LLM 的直觉，优先选择最有前景的路径，模仿人类利用先验知识完成任务的方式。
- GOS 采用 AlphaGo 启发的 PUCT 选择方法，公式如下：

U(s,a)=wpuct1+N(s,a)∑bN(s,b)U(s, a) = \frac{w_{puct}}{1 + N(s, a)} \sum_{b} N(s, b)U(s,a)=1+N(s,a)wpuctb∑N(s,b)

其中，wpuctw_{puct}wpuct 平衡探索与利用，N(s,a)N(s, a)N(s,a) 代表在状态 sss 下执行动作 aaa 的总次数。

反思增强节点扩展（Reflection-Enhanced Node Expansion，RENE）
- 通过在每次节点扩展后整合反馈，使 WebPilot 动态调整策略。
- 该方法通过**战略反思（Strategic Reflection）和战术反思（Tactical Reflection）**来优化探索过程。
动态评估与模拟（Dynamic Evaluation and Simulation，DES）
- 评估已执行的动作并模拟潜在的未来结果，帮助 WebPilot 预测可能的影响。
- 通过一阶前向模拟，识别并应对网页环境中的不确定性。
最大值回溯传播（Maximal Value Backpropagation，MVB）
- 通过优先考虑具有最大未来回报的路径，更新决策树中的值。
- MVB 避免了传统 MCTS 的均值回溯，专注于高潜力路径。

WebPilot 如何优化局部探索过程

子任务反思（Rsub）

WebPilot 结合过去的执行经验生成反思反馈，以指导未来的探索，避免相同错误的重复。
反思反馈主要包括：
- 子任务反思（Rsub）：帮助代理重新思考完成子任务的最佳方法。
- 同级反思（Sibling Reflection，Rst）：结合已执行的同级节点信息，优化后续探索路径。

评分与奖励机制

WebPilot 采用了精细的 0-10 评分系统，以评估执行动作的即时效果（SeffS_{eff}Seff）和未来潜力（SfutS_{fut}Sfut）：
Seff(at),Sfut(ot+1)=Appraiser(Effect(at),ot+1,Ti)S_{eff}(a_t), S_{fut}(o_{t+1}) = Appraiser(Effect(a_t), o_{t+1}, T_i)Seff(at),Sfut(ot+1)=Appraiser(Effect(at),ot+1,Ti)
总体奖励 StotalS_{total}Stotal 聚合即时效果与未来潜力，以提供决策依据：
Stotal(at,ot+1)=weff⋅Seff(at)+wfut⋅Sfut(ot+1)S_{total}(a_t, o_{t+1}) = w_{eff} \cdot S_{eff}(a_t) + w_{fut} \cdot S_{fut}(o_{t+1})Stotal(at,ot+1)=weff⋅Seff(at)+wfut⋅Sfut(ot+1)

搜索终止条件

代理在每次行动后，控制器评估任务完成情况：
Ct=Controller(Ti,{a1,a2,…,at},ot+1)C_t = Controller(T_i, \{a_1, a_2, \dots, a_t\}, o_{t+1})Ct=Controller(Ti,{a1,a2,…,at},ot+1)
如果任务完成，搜索终止；否则，系统将执行一阶前向模拟，生成新的反思反馈，并优化后续探索。

4. 实验（翻译）

4.1 实验设置

数据集和评估指标

为了展示 WebPilot 的广泛适用性，我们在两个基准数据集上对其进行了评估：WebArena（Zhou et al., 2023b）和 MiniWoB++（Liu et al., 2018）。

WebArena：由 812 个人工标注的网页任务组成，旨在评估代理在复杂、真实网站上执行操作的能力。这些任务涉及多种类型、长时间跨度，并且高度模拟了人类在网络上日常执行的任务。值得注意的是，WebPilot 作为纯文本代理，仅依赖于网页的可访问性树（actree），而不依赖视觉信息，这在未来的研究中将被进一步改进。WebArena 作为主要评估基准，因其与真实网页环境的高度相似性而被选中。
MiniWoB++：该环境提供了一系列较简单但多样化的网页任务，从基本的按钮点击到更复杂的表单填写等，这些任务需要一定的推理能力。我们遵循（Li et al., 2023）的方法，专注于 43 个可以通过文本表示完成的任务。

评估指标：我们使用 WebArena 上的成功率（Success Rate, SR）（Zhou et al., 2023b）作为衡量标准，并在 MiniWoB++ 上采用相应的评估标准。

基线模型

我们将 WebPilot 与多个基线模型进行比较，包括：

目前在 WebArena 上的 SOTA 方法 SteP（Sodhi et al., 2024）
另一种基于树搜索的模型 LM-Tree Search (LM-TS)（Koh et al., 2024）

我们使用 GPT-3.5 和 GPT-4o 作为基础语言模型，分别将最大 token 数限制为 4096，并设置温度为 0.3，其他参数保持默认值。

实现细节

我们针对效率和性能优化了 WebPilot 的参数，具体设置如下：

每个子任务的最大节点数量限制为 10。
探索偏向系数设定为 5，以平衡探索和利用。

更多详细实现信息可参阅附录。

4.2 WebArena 结果

表 2 显示，WebPilot 在 WebArena 数据集上的表现显著优于现有方法。使用 GPT-4o 的 WebPilot 在成功率方面相较于基线方法 LM-TS 提高了 93%，达到 37.2% 的成功率，超越了当前最先进的 SteP 方法，该方法依赖于固定的专家设计策略，适用于特定的状态和动作。

这一显著的提升表明，WebPilot 的自适应和动态策略在复杂的网页环境中具有更强的执行能力。

WebPilot 的灵活性和适应性

与 SteP 相比，WebPilot 在 GitLab 域上的成功率提高了 7.7%。这种优势得益于 WebPilot 的高级示例学习策略，使代理能够学习一般性的网页知识，而不仅仅局限于特定状态的固定策略。GitLab 域以其多样化、复杂的任务以及动态的多步骤场景而闻名，这凸显了 WebPilot 在实时调整策略和处理未见任务方面的能力。

WebPilot 在复杂任务上的卓越表现

在 Reddit 和 GitLab 域，WebPilot 通过战略性分解和反思反馈显著优于基线方法 LM-TS。LM-TS 由于缺乏明确的任务分解，导致代理在庞大的状态空间中探索效率较低，而 WebPilot 通过层次化任务分解确保每个子任务都具有针对性，并结合反思调整策略，从而实现更高效的探索和决策。

高级推理和规划能力的影响

即使在使用较弱的 GPT-3.5 时，WebPilot 也展现出了显著的提升，尤其是在 WebArena 基线的基础上。然而，从 GPT-3.5 升级到 GPT-4o 后，在购物、Reddit 和 GitLab 领域的成功率分别提高了 11.8%、6.6% 和 9.4%。这一提升主要源于 GPT-4o 在推理和信息检索方面的改进，使其能够更准确地执行复杂任务。

4.3 MiniWoB++ 结果

如表 3 所示，WebPilot 在 MiniWoB++ 上的表现与 SOTA 方法 SteP 相当。SteP 的轻微优势在于它使用了 10 个动作级示例，而 WebPilot 仅使用了 4 个高层示例，依赖于探索来弥补示例的不足。由于 MiniWoB++ 任务的简单性，不需要广泛的探索，这限制了 WebPilot 相对于 SteP 的优势。

尽管如此，WebPilot 在较少示例的情况下仍表现出色，证明其在探索复杂网页环境方面的能力。附录中提供了对 MiniWoB++ 结果的详细分析。