从 ReAct 到 Multi-Agent：AI Agent 的工程架构演进

小天才学习机打游戏

183人浏览 · 2026-06-16 21:33:25

小天才学习机打游戏 · 2026-06-16 21:33:25 发布

一个反直觉的事实

2024年初，大部分人对 AI Agent 的想象还停留在"让 GPT-4 调用几个 API"。到了2026年，生产环境里跑的单 Agent 系统可能涉及 20 多个工具调用、数百轮推理循环，而 Multi-Agent 系统则像一个小型技术团队——有架构师、有程序员、有测试员，彼此用协议通信、用投票做决策。

Agent 架构的复杂度，正在从"写一个 prompt"跃迁到"设计一个分布式系统"。这不是炒作，而是有明确工程驱动力的演化：当单 Agent 的推理链长度超过某个阈值后，错误会指数级累积；而把一个复杂任务拆给多个专业化 Agent，可以用"分而治之"换取整体可靠性。

类比一下：一个人独立完成一栋房子的设计、施工、装修，出错概率极高；而一个施工队里，设计师画图纸、泥瓦工砌墙、电工布线，每人只干自己擅长的，整体效率和质量反而更高。Multi-Agent 系统本质上就是在模拟这种"施工队协作"。

ReAct：推理+行动的最小闭环

Agent 架构的起点是 2022年10月 Princeton 和 Google 联合提出的 ReAct（Reasoning + Acting）范式 [^arxiv-react]。在此之前，LLM 的推理（Chain-of-Thought）和行动（Tool Use）是两条独立的研究线：CoT 只会在脑子里"想"，不会动手查资料；Act-only 只会调用工具，但缺乏对任务的全局推理。

ReAct 把两者缝合成一个交替循环：

思考(Thought) -> 行动(Action) -> 观察(Observation) -> 思考(Thought) -> …

每一步，模型先输出一段自然语言推理（“我需要查一下巴黎的人口”），然后基于这个推理决定调用什么工具（Search[Paris population]），拿到结果后再继续推理。这个循环一直持续到任务完成或达到最大步数。

论文作者用 PaLM-540B 做了三组实验，数据很能说明问题：

• HotpotQA（多跳问答，EM 指标）：纯 CoT 29.4%，纯 Act 25.7%，ReAct 最佳配置达到 35.1%。ReAct 不是每一项都碾压，但它在需要"推理指导行动"的环节优势明显。

• FEVER（事实验证，准确率）：纯 Act 58.9%，ReAct 达到 64.6%。这里的关键是 ReAct 的推理轨迹会暴露模型自己的"幻觉"——当推理链里出现"我假设 X 成立"时，模型往往会接着用行动去验证这个假设。

• AlfWorld（文本环境决策，成功率）：纯 Act 45%，ReAct 71%。在这个需要长期规划的居家任务模拟器里，没有推理的行动会像无头苍蝇一样乱点家具。

ReAct 的局限性也很明显：它是贪婪的。每一步只做局部最优决策，没有全局规划。如果一个任务需要 10 步完成，第 3 步的最优选择可能导致第 8 步陷入死胡同。就像开车只看下一个路口的红绿灯，从不看导航路线。

Plan-and-Execute：先规划再执行的扩展

为了解决 ReAct 的短视问题，业界在 2023 年发展出了 Plan-and-Execute 架构。核心思想很简单：不要把推理和行动混在一起，而是先让一个"规划器"（Planner）把任务拆成子任务列表，再逐个执行。

这个概念有两个重要的学术来源。一是 ACL 2023 的 Plan-and-Solve（PS）提示 [^arxiv-ps]，作者在 GSM8K 数学推理任务上做了验证：Zero-Shot-CoT 准确率 56.4%，PS 提升到 58.2%，加强版 PS+ 达到 59.3%。虽然绝对提升只有 3 个百分点，但 PS+ 把计算错误率从 7% 降到了 5%——说明"先规划再计算"确实能减少执行阶段的低级错误。

二是 2023年底提出的 LLMCompiler [^arxiv-llmc]，它把 Plan-and-Execute 推向了工程化：Planner 生成有向无环图（DAG），任务抓取单元（Task Fetching Unit）按依赖关系调度执行，Executor 并行调用工具。与顺序执行的 ReAct 相比，LLMCompiler 实现了最高 3.7 倍的延迟加速，同时准确率提升约 9%。

类比一下：ReAct 像边做饭边想下一步加什么调料；Plan-and-Execute 像先看完一整本菜谱，列出备料清单，然后开火。前者适合简单菜，后者适合年夜饭。

Plan-and-Execute 的伪代码骨架如下：

def plan_and_execute(task, tools, llm):
# Step 1: Planning
plan = llm.generate(f"把以下任务拆成子任务列表: {task}")
steps = parse_steps(plan) # e.g., [“查天气”, “查路线”, “推荐餐厅”]

 # Step 2: Execution with state            
 state = {"task": task, "results": {}}            
 for step in steps:            
     action = llm.generate(f"基于当前状态执行: {step}\n状态: {state}")            
     observation = tools.execute(action)            
     state["results"][step] = observation            

 # Step 3: Synthesis            
 answer = llm.generate(f"综合所有结果回答问题: {state}")            
 return answer

这里的关键设计是 state——一个显式的状态字典，把每步的执行结果累积起来。ReAct 的状态隐含在对话历史里，模型需要自己从长上下文中"回忆"之前的结果；Plan-and-Execute 把状态外化，降低了记忆负担，也方便人类介入调试。

但 Plan-and-Execute 有一个致命弱点：计划赶不上变化。如果执行到第 3 步时发现第 1 步的结果是错的，整个计划就需要重排。2024 年 LangChain 提出的 “Plan-and-Execute with Re-planning” 方案就是在执行循环里加一个重规划触发器：当某步执行结果与预期偏差超过阈值时，调用 Planner 重新生成剩余步骤。

Multi-Agent：多个 Agent 怎么协作

Plan-and-Execute 解决的是"一个 Agent 怎么更有条理地做事"。但当任务本身需要多种专业能力时——比如写一个全栈项目需要产品、前端、后端、测试——单 Agent 换再多 prompt 也模拟不出真正的专业分工。这是 Multi-Agent 系统的出发点。

通信拓扑：谁跟谁说

Multi-Agent 系统的第一层设计是通信拓扑。2026年1月的一篇综述 [^arxiv-orchestration] 把常见的拓扑归纳为三类：

星型（Hub-and-Spoke）：一个中央 orchestrator 接收任务，分发给各 worker Agent，再汇总结果。这是 AutoGen [^arxiv-autogen] 和 CrewAI 的默认模式。优点是控制集中、调试简单；缺点是 orchestrator 是单点瓶颈，且所有上下文都汇聚到中心节点，容易爆上下文窗口。
流水线（Pipeline）：Agent A 的输出作为 Agent B 的输入，依次传递。LangGraph 的图结构天然适合这种模式。适合有明确先后顺序的任务（如：需求分析 -> 架构设计 -> 编码 -> 测试）。
全连接/辩论（Fully-connected / Debate）：多个 Agent 同时处理同一问题，然后互相辩论、投票达成共识。NeurIPS 2025 的一篇论文 [^neurips-debate] 发现，多 Agent 辩论中的性能提升主要来自多数投票（Majority Voting），而非辩论本身。这是一个重要的反直觉结论：你把三个 Agent 叫来开会辩论，效果可能不如让它们各自独立作答然后取多数票。

调度机制：任务怎么分

通信拓扑决定了"谁能跟谁说话"，调度机制决定"话什么时候说"。

最简单的调度是静态分派：任务开始前就划定每个 Agent 的职责（CrewAI 的 Role-Based 设计）。一个 Agent 永远当研究员，另一个永远当写手。这好理解，但不够灵活——如果研究员发现某个问题需要代码验证，它没有执行权限，只能把需求写进共享文档等别人来读。

更高级的是动态调度。2025 年的 ProtocolRouter 研究 [^openreview-protocol] 提出：根据任务特征自动选择通信协议，能把完成时间缩短最多 36%，协议切换开销控制在 3.5 秒以内，整体性能提升 18%。核心思路是：简单任务用星型（低延迟），复杂任务用分层拓扑（高容错）。

冲突解决：意见不一致怎么办

Multi-Agent 系统里，冲突是常态。两个 Agent 对同一问题的回答矛盾，怎么办？

工程上常见的三种策略：

• 投票（Voting）：奇数个 Agent 各给一票，少数服从多数。NeurIPS 2025 的实验表明，这是性价比最高的方案。

• 监督者裁决（Supervisor Override）：由一个更强模型（如 GPT-4.5 或 Claude 4）担任仲裁员。成本更高，但适合高 stakes 决策。

• 置信度加权（Confidence Weighting）：每个 Agent 输出答案时同时输出置信度分数，用加权平均做最终决策。这需要模型对自身不确定性有较好的校准能力，目前 GPT-4 系列在这方面相对可靠。

AutoGen 的原始论文里提到一个有趣的发现：在数学和代码任务上，引入一个"批评者 Agent"（Critic）专门挑其他 Agent 的错误，能把最终答案的准确率提升 10-15%。但批评者不能太毒舌——如果批评意见过于冗长，会把整个系统的 token 消耗翻两三倍。

一个极简的 Multi-Agent 协作伪代码

class Agent:
def __init__(self, role, llm, tools):
self.role = role
self.llm = llm
self.tools = tools

 def run(self, task, context):            
     prompt = f"你是{self.role}。任务：{task}\n上下文：{context}"            
     return self.llm.generate(prompt)

class MultiAgentSystem:
def __init__(self, agents, orchestrator):
self.agents = agents
self.orchestrator = orchestrator

 def execute(self, task):            
     # 1. 规划            
     plan = self.orchestrator.plan(task, [a.role for a in self.agents])            

     # 2. 分派与执行            
     context = {}            
     for step in plan.steps:            
         agent = self.agents[step.agent\_id]            
         result = agent.run(step.description, context)            
         context[step.name] = result            

     # 3. 共识（如果有冲突）            
     if len(plan.steps) > 1 and plan.require\_consensus:            
         answers = [context[s.name] for s in plan.steps]            
         final = majority\_vote(answers)            
         return final            

     return context[plan.steps[-1].name]

性能对比与选型建议

到了 2026 年，选 Agent 架构已经不能凭直觉。以下是基于公开 benchmark 和论文数据的硬对比：


架构	延迟	准确率	适用场景	代表框架
ReAct	低（顺序执行）	中等	工具调用 < 5 步的简单查询	LangChain Agents
Plan-and-Execute	中（DAG 可部分并行）	中高	需要多步规划的中等复杂度任务	LangGraph, LLMCompiler
Multi-Agent（静态角色）	高（多轮通信）	高（任务匹配度高时）	需要专业分工的复杂工作流	CrewAI, AutoGen
Multi-Agent（动态调度）	中-高	高	任务类型多变、需要自适应分工	ProtocolRouter + AutoGen

更关键的发现来自 2025 年的一篇反直觉论文 [^arxiv-single-vs-multi]：在同质任务（比如纯代码生成、纯数学推理）上，一个精心调优的单 Agent（论文里叫 OneFlow）可以达到 92.1% 的 HumanEval 通过率，而同等预算下的 Multi-Agent 系统是 91.1%——单 Agent 不仅更快，还更省 token（节省 53.7%）和延迟（降低 49.5%）。

Multi-Agent 真正的价值出现在异质任务上：当任务需要"查资料+写代码+画图+做测试"这种跨领域组合时，专业分工带来的收益才能覆盖通信开销。

选型建议可以总结成一句话：先单后多。从 ReAct 开始，遇到规划困难时升级到 Plan-and-Execute，只有当任务明确需要多个专业角色协作时，才引入 Multi-Agent。否则你就是在用施工队的配置刷一面墙。

局限与下一步

当前 Agent 架构有三大硬约束。

第一，上下文窗口是隐形天花板。 Multi-Agent 系统里，每个 Agent 都要读共享状态、读对话历史。当项目规模扩大，上下文从 8K 涨到 128K 甚至 1M，token 成本会线性甚至超线性增长。Claude Sonnet 4.5 在 SWE-bench Verified 上用 1M 上下文能推到 78.2%，高算力模式 82.0% [^anthropic-sonnet45]——但这背后是巨额的推理成本。

第二，通信协议还在混战。 2024年底 Anthropic 推出 MCP（Model Context Protocol）[^anthropic-mcp]，2025年 Google 推出 A2A（Agent-to-Agent）[^a2a]。两个协议定位不同：MCP 管"Agent 怎么调工具"，A2A 管"Agent 怎么跟 Agent 对话"。但生态尚未统一，生产环境里往往要同时维护两套 adapter。

第三，评估基准严重滞后。 TravelPlanner benchmark [^arxiv-travel] 显示，即使是 GPT-4，在真实旅行规划任务上的成功率也只有 0.6%——不是模型不够聪明，而是现有 benchmark 无法刻画"长期规划+多约束满足"的真实难度。Agent 架构的进步速度，已经超过了我们测量它的能力。

下一步值得关注的方向有两个。一是 Agent Workflow Memory [^arxiv-awm]，让 Agent 从过去的执行记录里自动提取可复用的工作流模板，而不是每次从零推理。二是自反思机制的工程化：Reflexion [^arxiv-reflexion] 在 HumanEval 上把 pass@1 从 GPT-4 的 80% 推到了 91%，核心是给 Agent 配备一个"错题本"——每次失败后不更新模型权重，而是把失败原因写成自然语言记进记忆，下次遇到类似任务时检索参考。

Agent 架构的演进远未结束。从 ReAct 的一个 Thought-Action 循环，到 Multi-Agent 的分布式协作系统，本质上是在回答一个工程问题：怎么让 LLM 的推理能力，在复杂任务里不被自身的短视和幻觉拖垮。目前的解法都不完美，但方向已经清晰：更明确的规划、更专业的分工、更系统的记忆——说白了，就是教 LLM 像工程师一样工作，而不只是像作家一样说话。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

重磅发布 | 2026年品牌数字营销行业研究报告：市场规模、发展前景与十五五战略地图

AI Agent技术社区

Claude API 接入头格式变化整理：`anthropic-beta` header 与 account verification 实测（Claude Code / Cursor / Cline

上周在给一个内部工具对接 Claude API 时，看到 Anthropic 相关讨论突然多了起来，顺手把接入流程重新走了一遍。发现对 API 用户来说有两处 header 格式值得注意，不确认的话可能会遇到 401 或 403。这篇把我踩的坑和当前方案整理出来，供参考。本文涉及的部分机制（包括这一 beta 字符串、account verification 流程及相关字段名）目前尚未在 Anth

AI Agent技术社区

零成本 AI 模型选型方案——用 API 聚合网关低成本测试 GPT、Claude、DeepSeek

以 BluPaw 为例，聚合了 GPT-4o、Claude Sonnet、DeepSeek V3、Gemini 2.5、Qwen 等主流模型，接口完全兼容 OpenAI SDK。通过 BluPaw 智能路由（简单任务 DeepSeek，复杂任务 Claude），总成本 42 元，省 33%。假设你要做一个 AI 写作助手，需要对比 GPT-4o、Claude Sonnet、DeepSeek V3