Multi-agent Architecture Search via Agentic Supernet

MaAS解析

木枷

1387人浏览 · 2025-04-18 01:01:50

木枷 · 2025-04-18 01:01:50 发布

ABSTRACT

大语言模型（LLM）驱动的多智能体系统通常需要耗费大量人力的手动设计。尽管已有方法可自动化设计智能体工作流(the design of agentic workflows)，但这些方法通常追求单一、复杂且“一刀切”的静态系统，却无法根据每个查询的难度与领域动态分配推理资源。

为解决这一挑战，转而优化代理超网(the agentic supernet)——一种概率化、连续分布的智能体架构集合。

1 introduction

略

2 related words

略

3. Methodology

图2展示了方法的总体工作流程，MaAS以多样且难度不一的查询作为输入并通过控制器（controller）从代理超网（the agentic supernet）中采样子网络（subnetwork）。
系统执行后，MaAS接收环境反馈并联合优化超网的参数化分布（supernet’s parameterized distribution）与智能体算子（agentic operators）。

3.1. Preliminary

搜索空间定义（Search Space.）首先定义MaAS搜索空间的基本单元。

Definition 3.1 (Agentic Operator O).

定义3.1（智能体算子）

Agentic Operator O是通过多轮LLM调用与工具使用构成的复合过程：

其中 $\mathcal{M}$ 和 $\mathcal{P}$ 表示LLM骨干网络（LLM backbones）与提示集合（prompts）， $\mathcal{T}$ 表示工具集合， $m/n$ 分别为调用的智能体数量与工具数量。

请注意，算子O已经是多个LLM调用+工具+prompt了，通常O可以是COT，FEW-SHOT，RAG，甚至MUL-AGENT。但我理解，这里的O只是流程中的一个任务，只是为了完成这个任务可能要多次调用LLM并且使用工具。记住这点才能和后面的区分开。

可用算子集合记为
典型算子示例
Most existing workflows can be viewed as special cases:
• CoT (Chain-of-Thought): $O_{\text{CoT}} = \{M_1, \emptyset, \emptyset\}$ （单智能体零工具）
• Self-RAG: $O_{\text{RAG}} = \{M_1, P_{\text{retrieval}}, \emptyset\}$ （单智能体检索增强）
• Multi-agent Debate: $O_{\text{Debate}} = \{M_1, M_2, \ldots, M_k, \emptyset\}$ （多智能体辩论）

多智能体系统（multi-agent system）G 定义为：

$G = \{V, E\}, \quad V \subset O, \quad E \in V \times V$
• $V$ ：系统中选用的算子集合（ $V \subset O$ ）
• $E$ ：算子间的连接关系（ $E \subseteq V \times V$ ）
• 约束条件： $G$ 必须为有向无环图（DAG）

Definition 3.2 (Agentic Supernet A).

定义3.2（代理超网）
代理超网(agentic supernet)定义为多层算子配置的概率分布：

其中 $\pi_\ell(O)$ 表示在的条件下第 $\ell$ 层选择算子 $O$ 的条件概率。

我认为A是为了计算而定义，前面的G是变量实体。

超网的多层配置联合分布 p(G)

$V_\ell$ 表示第 $\ell$ 层激活的算子集合。为指示函数，表示 $O$ 是否在第 $\ell$ 层被激活

Vl的计算见公式9

Problem Formulation. max E

目标函数

给定包含多个查询q及其对应最优解a的基准数据集（benchmark）D，MaAS的目标不是像先前工作那样识别单一最优智能体系统（Zhang et al., 2024c; Zhuge et al., 2024），而是优化以下条件概率分布：

其中：
• $U(G;q,a)$ ：基于Oracle评估的性能效用（如准确率、推理正确性）
• $C(G;q)$ ：资源消耗成本（如token数、LLM调用次数）
• $\lambda$ ：成本-性能权衡超参数

是生成查询依赖的代理架构的分布，在这里相当于是max E（期望）的条件。

3.2. Agentic Architecture Sampling

工作流性能评估

MaAS的核心在于为每个用户查询定制个性化的多智能体系统——其复杂度可能因查询难度和领域差异而变化，目标是提供满意的解决方案：

其中 $Q_\phi$ 表示控制器网络（controller network），输入查询 $q$ 、参数化分布 $\pi$ 和可用算子集合 $O$ ，输出采样的智能体架构 $G$ 。 $Q_\phi$ 由参数 $\phi$ 控制， $e(\cdot \mid \cdot)$ 表示通过执行 $G$ 生成答案的过程。

注意，公式(6)因为使用了最大化似然函数，所以公式6的值越大，则结果a的效果越好。

这里有个问题，e(a|G)似然函数，表示的是在G下生成结果a的质量（如准确率、通过率），不是概率。

这个公式应该是积分的运用，e(a|G)Q(G|q,π,O)dG 相当于求e(a|q,π,O)，应该是用了微积分的数学知识。

所以这是个关键公式，为了后续反向传播更新参数φ！

控制器网络实现

我们将 $Q_\phi$ 实现为：

这个公式计算的是所有路径的可能性！！（因为之前就说了V_l是算子集合而不是算子！！）

公式展开如下所示：

其中 $V_h$ 表示第 $h$ 层选择的算子（selected operators）。 $V_\ell$ 的选择条件依赖于查询 $q$ 和前序层的算子（the operators from the previous layers.）。

为什么要建立这样一个公式，有什么用？

然而，并非所有查询都需要完整执行 $L$ 层——如第1节所述，许多问题可通过单次零样本输入解决，导致 $L$ 层冗余。为此，我们引入提前退出算子 $O_{\text{exit}}$

early-exit operator Oexit

其中 $\ell_{\text{exit}}$ 表示 $O_{\text{exit}}$ 出现的层数， $\delta(\cdot)$ 为克罗内克函数（Kronecker delta function）。

这张图的概率打错了，应该是未选0.7，选择0.3，这个计算只在第三层激活。
我认为，这个公式其实就是想表示文字描述的Oexit可以使workflow停止而已。但是他选择了使用数学表达式描述。

通过MoE（Mixture-of-Expert）风格网络实现采样过程 $\pi_\phi$ ：

πl计算

其中 $S^\downarrow = \text{sort}(S, \text{desc})$ ， $S \in \mathbb{R}^{|O|} = [S_1, \ldots, S_{|O|}]$ 表示所有可行算子的激活分数（基于查询 $q$ ）。阈值 $\text{thres}$ 控制算子激活数量——系统按得分从高到低顺序激活操作符，直至累计得分超过阈值。此机制确保每层选择的操作符数量与任务复杂度动态适配，使MaAS能够基于任务需求分配资源。

请注意控制器里的π和这里的π_l是整体和局部的关系。（所以更新控制器的π会影响每一层的算子选择，因为控制器就是由每一层的π_l组成的）

翻译问题，图中的操作符就是算子。说白了就是找到前k个可用的算子使得权重大于阈值，并且要求k尽可能小。（剪枝操作）

每个算子的计算公式如下：

算子得分计算

3.3. Cost-constrained Supernet Optimization

成本约束超网优化（优化目标）

我们提出MaAS的优化目标如下：

其中 $C(\cdot)$ 通过token成本衡量多智能体系统的代价， $\lambda$ 为权衡参数。

前面已经提到了，作者的目标就是得到更好的结果并且更低的开销，所以这个公式很合理。

式(10)中的 $p(a \mid q, \pi, O)$ 对应式(6)，但由于 $e(a \mid G)$ 通常涉及外部工具或基于API的LLM调用（导致不可导），我们采用经验贝叶斯蒙特卡洛方法估计分布 $\pi$ 的梯度：

梯度计算

其中 $m_k$ 表示智能体架构的成本感知重要性权重(the cost-aware importance weights of the agentic architecture)。直观上， $\pi$ 的更新倾向于选择高质量、低token成本的多智能体系统。

请注意，公式中的▽πp(Gk)可能是根据公式4算的，公式是p(G)。

以及请注意，这里的π说白了就是各层算子的概率权重！仔细看它公式就知道，更新的就是权重！

如上公式的▽错写成了abla，注意辨别。

然而，算子的梯度 $\nabla_O \mathcal{L}$ 无法直接计算。由于算子包含黑盒工具使用和自然语言提示（式1），数值梯度更新不可行。

为此，我们提出基于代理的文本梯度近似反向传播：

文本梯度计算

其中分别表示：
• $T_p$ ：通过代理生成的提示修正建议（如"请使用更具体的检索条件"）
• $T_T$ ：模型温度参数的调整方向（如"降低温度至0.6以提高确定性"）
• $T_N$ ：操作符节点的结构修改（如"合并重复的检索模块"）

这个文本梯度更新有现成api:textguard。直接调用。

具体实现参见附录B.3的提示模板。通过联合优化核心组件（操作符及其连接关系），MaAS实现了多智能体系统的全自动进化。关键符号总结见表5，完整算法见Algorithm 1。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。