ABSTRACT

大语言模型(LLM)驱动的多智能体系统通常需要耗费大量人力的手动设计。尽管已有方法可自动化设计智能体工作流(the design of agentic workflows),但这些方法通常追求单一、复杂且“一刀切”的静态系统,却无法根据每个查询的难度与领域动态分配推理资源。

为解决这一挑战,转而优化​​代理超网​​(the ​​agentic supernet)——一种概率化、连续分布的智能体架构集合。

1 introduction

2 related words

3. Methodology

图2展示了方法的总体工作流程​,MaAS以多样且难度不一的查询作为输入并通过控制器(controller)从代理超网(the agentic supernet)中采样子网络(subnetwork)。
系统执行后,MaAS接收环境反馈并联合优化超网的参数化分布(supernet’s parameterized distribution)与智能体算子(agentic operators)。

3.1. Preliminary

搜索空间定义(Search Space.)首先定义MaAS搜索空间的基本单元​。

​Definition 3.1 (Agentic Operator O).​


​定义3.1(智能体算子)​

Agentic Operator O是通过多轮LLM调用与工具使用构成的复合过程:


其中$\mathcal{M}$$\mathcal{P}$表示LLM骨干网络(LLM backbones)与提示集合(prompts),$\mathcal{T}$表示工具集合,$m/n$分别为调用的智能体数量与工具数量。

请注意,算子O已经是多个LLM调用+工具+prompt了,通常O可以是COT,FEW-SHOT,RAG,甚至MUL-AGENT。但我理解,这里的O只是流程中的一个任务,只是为了完成这个任务可能要多次调用LLM并且使用工具。记住这点才能和后面的区分开。

可用算子集合记为
典型算子示例 
Most existing workflows can be viewed as special cases:  
CoT (Chain-of-Thought): $O_{\text{CoT}} = \{M_1, \emptyset, \emptyset\}$(单智能体零工具)  
Self-RAG: $O_{\text{RAG}} = \{M_1, P_{\text{retrieval}}, \emptyset\}$(单智能体检索增强)  
Multi-agent Debate: $O_{\text{Debate}} = \{M_1, M_2, \ldots, M_k, \emptyset\}$(多智能体辩论)  


多智能体系统(multi-agent system)G 定义为:

G = \{V, E\}, \quad V \subset O, \quad E \in V \times V 
$V$:系统中选用的算子集合($V \subset O$)  
$E$:算子间的连接关系($E \subseteq V \times V$)  
约束条件$G$必须为有向无环图(DAG)  

Definition 3.2 (Agentic Supernet A).

 
定义3.2(代理超网)
代理超网(agentic supernet)定义为多层算子配置的概率分布:  


其中$\pi_\ell(O)$表示在的条件下第$\ell$层选择算子$O$的条件概率

我认为A是为了计算而定义,前面的G是变量实体。

超网的多层配置联合分布 p(G)


$V_\ell$表示第$\ell$层激活的算子集合为指示函数,表示$O$是否在第$\ell$层被激活  

Vl的计算见公式9

Problem Formulation. max E

​目标函数​

给定包含多个查询q及其对应最优解a的基准数据集(benchmark)D,MaAS的目标不是像先前工作那样识别单一最优智能体系统(Zhang et al., 2024c; Zhuge et al., 2024),而是优化以下条件概率分布:

其中:  
$U(G;q,a)$:基于Oracle评估的性能效用(如准确率、推理正确性)  
$C(G;q)$:资源消耗成本(如token数、LLM调用次数)  
$\lambda$:成本-性能权衡超参数  

是生成查询依赖的代理架构的分布,在这里相当于是max E(期望)的条件。

3.2. Agentic Architecture Sampling

工作流性能评估

MaAS的核心在于为每个用户查询定制个性化的多智能体系统——其复杂度可能因查询难度和领域差异而变化,目标是提供满意的解决方案:


其中$Q_\phi$表示控制器网络(controller network),输入查询$q$、参数化分布$\pi$和可用算子集合$O$,输出采样的智能体架构$G$$Q_\phi$由参数$\phi$控制,$e(\cdot \mid \cdot)$表示通过执行$G$生成答案的过程。

注意,公式(6)因为使用了最大化似然函数,所以公式6的值越大,则结果a的效果越好。

这里有个问题,e(a|G)似然函数,表示的是在G下生成结果a的质量(如准确率、通过率),不是概率。

这个公式应该是积分的运用,e(a|G)Q(G|q,π,O)dG 相当于 求e(a|q,π,O),应该是用了微积分的数学知识。

所以这是个关键公式,为了后续反向传播更新参数φ!

控制器网络实现

我们将$Q_\phi$实现为:  

这个公式计算的是所有路径的可能性!!(因为之前就说了V_l是算子集合而不是算子!!)

公式展开如下所示:


其中$V_h$表示第$h$层选择的算子(selected operators)。$V_\ell$的选择条件依赖于查询$q$和前序层的算子(the operators from the previous layers.)。

为什么要建立这样一个公式,有什么用?

然而,并非所有查询都需要完整执行$L$层——如第1节所述,许多问题可通过单次零样本输入解决,导致$L$层冗余。为此,我们引入提前退出算子$O_{\text{exit}}$

early-exit operator  Oexit



其中$\ell_{\text{exit}}$表示$O_{\text{exit}}$出现的层数,$\delta(\cdot)$为克罗内克函数(Kronecker delta function)。

这张图的概率打错了,应该是未选0.7,选择0.3,这个计算只在第三层激活。
我认为,这个公式其实就是想表示文字描述的Oexit可以使workflow停止而已。但是他选择了使用数学表达式描述。

通过MoE(Mixture-of-Expert)风格网络实现采样过程$\pi_\phi$:  

πl计算



其中$S^\downarrow = \text{sort}(S, \text{desc})$$S \in \mathbb{R}^{|O|} = [S_1, \ldots, S_{|O|}]$表示所有可行算子的激活分数(基于查询$q$)。阈值$\text{thres}$控制算子激活数量——系统按得分从高到低顺序激活操作符,直至累计得分超过阈值。此机制确保每层选择的操作符数量与任务复杂度动态适配,使MaAS能够基于任务需求分配资源。

请注意控制器里的π和这里的π_l是整体和局部的关系。(所以更新控制器的π会影响每一层的算子选择,因为控制器就是由每一层的π_l组成的)

翻译问题,图中的操作符就是算子。说白了就是找到前k个可用的算子使得权重大于阈值,并且要求k尽可能小。(剪枝操作)

每个算子的计算公式如下:

算子得分计算

3.3. Cost-constrained Supernet Optimization

 
成本约束超网优化 (优化目标)


我们提出MaAS的优化目标如下:  

其中$C(\cdot)$通过token成本衡量多智能体系统的代价,$\lambda$为权衡参数。

前面已经提到了,作者的目标就是得到更好的结果并且更低的开销,所以这个公式很合理。

式(10)中的$p(a \mid q, \pi, O)$对应式(6),但由于$e(a \mid G)$通常涉及外部工具或基于API的LLM调用(导致不可导),我们采用经验贝叶斯蒙特卡洛方法估计分布$\pi$的梯度:

梯度计算

 

其中$m_k$表示智能体架构的成本感知重要性权重(the cost-aware importance weights of the agentic architecture)。直观上,$\pi$的更新倾向于选择高质量、低token成本的多智能体系统。

请注意,公式中的▽πp(Gk)可能是根据公式4算的,公式是p(G)。

以及请注意,这里的π说白了就是各层算子的概率权重!仔细看它公式就知道,更新的就是权重!

如上公式的▽错写成了abla,注意辨别。

然而,算子的梯度$\nabla_O \mathcal{L}$无法直接计算。由于算子包含黑盒工具使用和自然语言提示(式1),数值梯度更新不可行。

为此,我们提出基于代理的文本梯度近似反向传播:  

文本梯度计算



其中分别表示:  
T_p:通过代理生成的提示修正建议(如"请使用更具体的检索条件")  
T_T:模型温度参数的调整方向(如"降低温度至0.6以提高确定性")  
T_N:操作符节点的结构修改(如"合并重复的检索模块")  

这个文本梯度更新有现成api:textguard。直接调用。

具体实现参见附录B.3的提示模板。通过联合优化核心组件(操作符及其连接关系),MaAS实现了多智能体系统的全自动进化。关键符号总结见表5,完整算法见Algorithm 1。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐