大模型论文 | MaAS框架与“智能体超网” (Agentic Supernet)_multi-agent architecture search via agentic supern

在本文中，多智能体系统设计的范式从“寻找最优的单个系统”，转变为“优化一个系统的动态分布”。所提出的MaAS框架，通过其核心的“智能体超网”概念，实现了对不同任务的“量体裁衣”，在大幅提升资源效率的同时，取得了SOTA的性能表现。我们相信，MaAS为构建更通用、更经济、更智能的自动化AI系统铺平了道路。

leah126

1025人浏览 · 2025-08-30 17:01:51

leah126 · 2025-08-30 17:01:51 发布

最近，由多个AI智能体（Agent）协作完成复杂任务的“智能体社会”概念越来越火，从 AutoGen 到 MetaGPT，我们见证了“群聊”模式解决问题的强大潜力。

然而，在繁荣之下，一个“隐藏问题”逐渐浮现：我们精心设计的，或者用自动化方法找到的智能体团队，往往是一个 “一刀切”的重量级解决方案。譬如在AFlow或者ADAS这样的框架中，无论是简单的小学算术，还是复杂的物理难题，都用同一套“豪华阵容”来应对。

这种“大力出奇迹”的模式，可能导致两个“隐形痛点”：

资源浪费：简单任务根本不需要复杂的协作流程，导致大量的LLM调用和Token被白白浪费。
泛化难题：一个在A领域（比如网页搜索）表现优异的固定团队，换到B领域（比如文献总结）可能就“水土不服”，难以实现跨领域的最佳性能。

那么，如何打破这种僵局，让AI智能体团队学会“看菜下碟”，专事专办呢？为了解决上述挑战，来自新加坡国立大学、南洋理工大学等高校的团队提出了一种全新的自动化框架 MaAS (Multi-agent Architecture Search)。论文已被录用为ICML 2025 Oral。

论文: 【ICML 2025 Oral】**Multi-agent Architecture Search via Agentic Supernet (MaAS)**
链接: https://arxiv.org/abs/2502.04180
代码: https://github.com/bingreeky/MaAS

范式转换： MaAS框架与“智能体超网” (Agentic Supernet)

在这篇工作中，研究者们不再追求寻找一个“万能”的智能体系统，而是转变思路：构建并优化一个 “智能体超网”（Agentic Supernet）。

你可以把这个“超网”想象成一个经验丰富的“项目总监”。它内部包含了各种可能的工作流（由CoT、ReAct、Debate等基础智能体算子组成），而不是一个固定的团队。当一个新任务（Query）到来时，这位“总监”会：

评估任务：快速分析任务的类型、难度和特点。
动态组队：从“超网”中即时采样、组合出一个量身定制、恰到好处的智能体团队（工作流）。
高效执行：用最精简的团队、最合理的流程来解决问题。

图1：MaAS框架总览。左侧是智能体“工具箱”，右侧展示了“超网”如何根据不同任务（简单算术 vs 高中物理 vs 复杂编码)动态采样出不同的解决方案。

通过这种方式，MaAS实现了从“静态重团队”到“动态轻组合”的范式转变，真正让智能体协作变得智能、高效且经济。

技术探秘：MaAS是如何工作的？

MaAS框架的“智能”并非魔法，而是一套设计精巧、环环相扣的机制。我们可以将其核心工作流拆解为三大步骤：构建“可能性宇宙”、“看菜下碟”式采样、以及 “自我进化”式优化。

第1步：构建智能体超网 (Agentic Supernet)

想象一下，我们不是去设计一辆固定的“汽车”，而是建造一个巨大的、模块化的“超级底盘”（Supernet）。这个底盘上预留了所有可能的接口，可以安装任何型号的引擎（大语言模型）、任何类型的工具（计算器、搜索引擎）、以及任何驾驶策略（智能体算子，如CoT、ReAct、Debate）。

这个“超级底盘”就是我们的智能体超网。它是一个多层的概率图，包含了我们预定义的所有智能体算子。它本身不执行任务，而是代表了解决一个问题的所有潜在路径的集合。

第2步：查询依赖的动态采样

这是MaAS最核心的智慧所在。当一个任务（Query）到来时，一个轻量级的**“总调度师”（Controller Network）**会立即介入。它会实时分析任务，然后从庞大的“超网”中，动态地构建出一条最优、最经济的执行路径。

让我们通过两个具体案例来看看它是如何工作的：

案例一：简单计算任务

输入查询 (Query): "计算 42! (42的阶乘) 末尾有多少个零？"
调度师分析: “调度师”通过对查询文本的理解，迅速识别出这是一个定义明确、有固定解法的数学计算题。它不需要复杂的网络搜索或多方辩论。
路径采样过程:
- 第1层 (Layer 1): “调度师”会给那些最直接、最高效的算子打高分。比如，它会大力推荐 ReAct 算子，并为其配备一个 代码解释器 工具，因为执行一段简单的Python代码就能完美解决这个问题。同时，I/O（直接输出）也获得了一定的分数。而像 Debate（辩论）这种重量级算子，则几乎不会被考虑。
- 第2层 (Layer 2): 由于第1层的 ReAct 已经得出了正确答案（通过计算因子5的数量），任务已经完成。“调度师”在这一层会极大地提高 Early-Exit（提前退出）算子的被选中概率（例如，概率高达 47%）。
最终路径: Query → ReAct(with_Code_Interpreter) → Early-Exit → Solution。
结果: MaAS用一个极短、高效的路径解决了问题，只进行了一次核心的工具调用，避免了不必要的资源浪费。

案例二：复杂研究任务

输入查询 (Query): "根据维基百科，在2021年，亚洲有哪些国家既保留了君主制，又拥有海岸线？"
调度师分析: “调度师”识别出这是一个复杂的研究型任务，需要：①信息检索（哪些是亚洲国家、哪些是君主制国家），②信息交叉验证（同时满足三个条件），③综合整理。
路径采样过程:
- 第1层 (Layer 1): 这次，“调度师”会优先选择具备探索能力的算子。ReAct 算子再次被选中，但这次配备的是 Web Search（网络搜索）工具。它可能会启动多个并行的搜索任务。
- 第2层 (Layer 2): 搜索结果回来了，但可能包含一些错误或矛盾的信息（比如，某个内陆国被误标为有海岸线）。此时，“调度师”会给整合与批判性思维的算子打高分。比如，它会激活 Debate 算子，让两个独立的智能体分别基于搜索结果进行论证和反驳，以去伪存真。同时，Refine（精炼）算子也会被激活，用于整理初步的候选名单。Early-Exit 的概率会非常低。
- 第3层 (Layer 3): 经过辩论和初步精炼，一个比较可靠的国家列表形成了。最后，“调度师”可能会调用一个 Summarize（总结）算子，将最终结果整理成清晰、格式化的文本。
最终路径: 一个长而复杂的路径，如 Query → ReAct(Web_Search) → Debate → Refine → Summarize → Solution。
结果: MaAS构建了一个强大的研究团队来应对复杂挑战。虽然成本更高，但它确保了答案的准确性和全面性，实现了“好钢用在刀刃上”。

第3步：联合优化与文本梯度

MaAS不仅会“用”，更会“学”。在每次任务执行后，它都会根据结果的正确性和过程的成本进行复盘和优化。

优化“调度师” (Controller): 如果一条路径（比如案例一中的短路径）以低成本获得了高分答案，那么“调度师”就会得到正向激励。下次遇到类似的简单任务时，它选择这条短路径的概率就会更高。这就像是在训练“调度师”的“直觉”。
优化“工具箱” (Operators) - 文本梯度 (Textual Gradient): 如果一个算子（比如某个CoT的Prompt）在任务中表现不佳，我们不是简单地弃用它，而是让AI来“修复”AI。

一个“梯度智能体”会审查失败的执行过程。
它会生成一段“优化指令”，这就是所谓的“文本梯度”。比如：“你在进行多步推理时，逻辑跳跃太快，导致结论错误。你应该在Prompt中加入一个要求，强制模型先列出所有已知条件，再进行推导。”
这段文本指令会被自动应用，去更新那个表现不佳的CoT算子的Prompt。
通过这种方式，我们的“工具”本身也在不断地迭代和进化，变得越来越强大和可靠。

在这里插入图片描述

总结来说，MaAS就像一个能自我学习的“项目管理大脑”，它不仅能为每个任务动态组建最合适的团队，还能在实践中不断培训团队成员、优化工作流程，最终实现效率与效果的完美平衡。

实验解析：性能与成本的双重优化

MaAS在数学、代码、工具使用等6个主流基准测试上进行了全面评估。相比于现有SOTA方法，MaAS不仅在各项任务上取得了最优的平均性能（83.59%），更在资源效率上展现了惊人的优势。

在这里插入图片描述

在最具挑战的MATH基准上，与强大的基线方法AFlow相比，MaAS的训练成本仅为其15%，推理成本更是低至其25%，最终推理API开销仅为 $0.42！

在这里插入图片描述

MaAS最智能的地方在于，它能根据任务难度自适应地调整策略。

面对简单任务：如下图(a)和(b)，当遇到简单的数学问题时，MaAS会大概率在第二层就选择 Early-exit 算子，提前终止复杂的流程，用最简单的I/O或ReAct快速给出答案，概率高达37%和47%。
面对复杂任务：而当遇到难题时（图d），MaAS则会=调用更多层的、更复杂的算子组合（如Ensemble、Refine）来确保解题的准确性，并且几乎不会提前退出。

在这里插入图片描述

这种查询感知的动态资源分配能力，正是MaAS能够兼顾性能与效率的核心原因。

总结与展望

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

2025最新版CSDN大礼包：《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段：我们会去了解大模型的基础知识，以及大模型在各个行业的应用和分析；学习理解大模型的核心原理，关键技术，以及大模型应用场景；通过理论原理结合多个项目实战，从提示工程基础到提示工程进阶，掌握Prompt提示工程。

L2级别：AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程，我们会去学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3级别：大模型Agent应用架构进阶实践

L3阶段：大模型Agent应用架构进阶实现，我们会去学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造我们自己的Agent智能体；同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别：大模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，我们会更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调；并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握；而L3 L4更多的是通过项目实战来掌握大模型的应用开发，针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

四、大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2025最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her