AI Agent 的构建指南

下图是今年李飞飞与微软实验室团队在一篇论文中的内容截图，描述了 AI Agent 的基本概念和框架。以下为参考文献链接：https://www.microsoft.com/en-us/research/project/agent-ai/

安卓老猴子

2248人浏览 · 2025-01-24 11:45:00

安卓老猴子 · 2025-01-24 11:45:00 发布

一、概念说明

下图是今年李飞飞与微软实验室团队在一篇论文中的内容截图，描述了 AI Agent 的基本概念和框架。
以下为参考文献链接：https://www.microsoft.com/en-us/research/project/agent-ai/

在这里插入图片描述

二、对比：人类与基于 LLM 的智能代理

资料来源：https://arxiv.org/pdf/2309.07864

在这里插入图片描述

功能模块	人类	AI 智能代理
感知（Perception）	利用感官（视觉、听觉等）获取信息并进行认知处理	多模态数据处理模块（文本、图像、音频）转化为 LLM 可理解的表示
大脑（Brain）	通过记忆、推理和决策整合信息（经验和数据）并输出结论	基于 LLM 的推理、记忆和决策功能
行动（Action）	使用肢体和工具完成任务，例如递伞或做出指示	调用工具或机械系统执行任务，例如生成文本或操作物理设备
反馈与迭代	通过环境反馈修正认知和行动	在每次交互中获取反馈，用于改进决策和后续操作

三、Anthropic对于Agents 的分类

在 Anthropic，统称为 agentic systems（智能代理系统），但从架构上对两者进行了重要区分：

工作流（Workflows）：

通过预定义的代码路径协调 LLM（大语言模型）和工具的运行。
其行为是可预测的，受既定逻辑约束。

智能代理（Agents）：

系统中 LLM 能够动态指挥自身的流程，决定如何使用工具完成任务。
智能代理具有更大的灵活性和适应性，对任务执行方式拥有更高的控制权。

四、什么时候用 Agents

在使用 LLM 构建应用时，建议尽量选择最简单的解决方案，仅在确有需要时增加复杂性。这意味着，有时甚至不需要构建智能代理系统。智能代理系统通常以更高的延迟和成本换取更好的任务性能，因此需要根据实际需求权衡这些取舍。

优先选择简单解决方案

对于大多数应用，优化单次 LLM 调用、结合检索机制或上下文示例，通常已经足够。

工作流的适用场景

当任务明确、规则固定时，工作流（Workflow）提供了更高的可预测性和一致性。

智能代理的适用场景

当需要在大规模场景中实现灵活性和基于模型的动态决策时，智能代理（Agent） 是更好的选择。

五、实现方式

以下内容基于去年看到的一张图《A Basic AI Agent》整理而成，来源：https://lilianweng.github.io/posts/2023-06-23-agent/

在这里插入图片描述

1. Agent（智能代理）

核心部分是一个大语言模型（LLM），结合以下关键能力：

Planning（计划）：基于当前目标和环境，制定行动策略。
Feedback（反馈）：不断根据执行结果调整策略，改进行为。
Tool Use（工具使用）：借助各种工具完成特定任务。

2. Memory（记忆力）

记忆力帮助智能代理更智能地工作，并实现任务的递归优化。

短期记忆 (Short-term Memory)：
存储当前上下文，通常依赖于 LLM 的 token 窗口大小。
长期记忆 (Long-term Memory)：
RAG（Retrieval-Augmented Generation）: 通过检索机制从知识库中提取相关信息。
历史记录：记录长期交互日志，为未来的计划或反思提供参考。

记忆的作用：

调整计划：根据过去的经验优化当前策略。
进行反思：识别错误并总结成功经验。

3. Planning（计划模块）

计划能力分为以下几个子功能：

Reflection（反思）：检查目标和执行策略的合理性。
Self-Critics（自我批判）：主动寻找行动或计划中的问题。
Chain of Thoughts（链式思维）：通过逐步推理，解决复杂问题。
Subgoal Decomposition（子目标分解）：将复杂任务分解为可执行的子任务。

4. Tools（工具）

工具扩展了智能代理的功能，使其可以解决超出 LLM 自身能力范围的问题：

Calculator（计算器）：执行数学运算。
Code Interpreter（代码解释器）：分析和运行代码，处理复杂编程任务。
Search（搜索）：获取实时信息或验证现有知识。
API 调用：通过调用外部服务获取结果。

工具的使用：使智能代理能够在真实世界中更高效地行动。

5. Action（行动）

智能代理的行动方式包括：

直接行动：根据计划执行策略。
借助工具行动：工具作为智能代理的“延伸”，帮助完成复杂或技术性的任务。

Reflection（反思）

反思（Reflection） 是智能代理的重要环节，通过对执行行为的反思与调整，提升系统的智能化水平和适应能力。以下内容结合https://lilianweng.github.io/posts/2023-06-23-agent/ 展开说明。

在这里插入图片描述

核心结构和功能

Self-reflection（自反模块，LM）

自我检查：分析自身执行的准确性和效率。
元认知：通过“反思”改进执行策略和长期决策。
通过分析外部和内部反馈，生成反思文本（Reflective text），为后续行为提供调整依据。
自反能力使智能代理能够评估其自身行为和决策逻辑。

Trajectory（短期记忆）

快速适应环境中的动态变化。
提供行为执行中的上下文数据。
存储近期观察（Obs）和奖励（Reward）轨迹，为评估器和行为模块提供实时参考。

Evaluator（评估器，LM）

支持动态调整策略。
与自反模块交互，为长期改进提供数据支持。
对短期记忆中的轨迹进行分析，结合外部反馈（External feedback）生成内部反馈。
确保行为与目标一致，识别潜在的问题和优化点。

Actor（执行模块，LM）

行为动态调整，能够适应环境反馈。
直接影响环境（Environment）。
根据计划和反馈执行具体的行动。

Experience（长期记忆）

支持知识的累积和跨任务的泛化能力。
储存过往经验和反思文本，为未来决策和行为提供历史依据。

系统特性

自我检查能力（Self-examination）

通过反思和评估模块对行为进行动态优化。
能够实时发现执行中的问题。

动态行为修改（Dynamically Modify Behavior）

基于内外部反馈，调整行为模块的策略和行动。

适应性和灵活性（Adaptability and Flexibility）

可根据环境变化调整计划和行动，表现出强大的灵活性。

调试与维护（Debugging and Maintenance）

自反模块和评估器支持系统的自我调试，降低维护成本。

Tools（工具）

工具也展开说一下，这部分主要是Anthropic他们的经验。无论构建哪种智能代理系统，工具往往是代理的重要组成部分。工具使 Claude 能与外部服务和 API 交互，通过 API 定义其结构和功能。当 Claude 决定调用工具时，它将在 API 响应中包含一个工具调用块（Tool Use Block）。与整体提示工程类似，工具定义和规范也需要精心设计。

工具格式的设计建议

在指定工具时，往往有多种方法完成相同的操作。例如：

文件编辑：可以通过写入 diff 文件或重写整个文件来实现。
结构化输出：可以选择将代码嵌套在 Markdown 或 JSON 中。

虽然从软件工程角度来看，这些差异只是表面上的，可以无损转换，但对于 LLM 来说，不同格式的书写难度差异明显。例如：

写 diff 文件需要在新代码之前，提前计算出需要更改的行数。
在 JSON 格式中写代码需要处理额外的转义字符（如换行符和引号）。

以下是一些选择工具格式的建议：

留出足够的 Token 空间

确保模型在生成代码之前有足够的“思考”空间，避免陷入逻辑死角。

使用常见格式

优先选择模型在互联网上常见的格式，增加模型的熟悉度。

减少格式化负担

避免模型需要额外计算或处理复杂的格式，比如大规模行计数或字符串转义。

提升工具设计的最佳实践

就像人机交互界面（HCI）需要大量设计投入一样，智能代理与工具交互界面（ACI）也需要同样的关注。以下是一些具体建议：

1. 站在模型的视角思考

工具的描述和参数是否直观？模型是否需要费力理解？
提供清晰的使用示例、边界情况、输入格式要求以及工具与其他工具的明确区分。

2. 优化参数名称和描述

将参数名称和描述设计得更直观，就像为团队中一位新手开发者写优秀的文档注释（docstring）。
当使用多个类似工具时，这点尤为重要。

3. 测试和迭代

在工作台中运行多个示例输入，观察模型使用工具时的错误，并持续改进设计。

4. 防错设计（Poka-Yoke）

调整工具的参数和接口，使其更难出现使用错误。
示例：在Anthropic的 SWE-bench 代理中，模型在离开根目录后，使用相对路径时容易出错。为了解决这一问题，Anthropic将工具设计为只接受绝对路径，模型使用这一方法后表现完美。

通过优化工具设计，智能代理能够更好地完成复杂任务。例如，在 SWE-bench 的实现中，Anthropic花费了更多时间优化工具，而非整体提示。这样的投入不仅提高了工具的可靠性，也提升了整个系统的易用性和精确性。

开发 Agents

可选框架

有许多框架可以帮助开发者更轻松地实现智能代理系统，包括：

LangGraph (LangChain)
提供模块化工具链，支持语言模型的功能组合
Amazon Bedrock 的 AI Agent 框架
通过统一接口构建和部署智能代理。
Rivet
一个拖放式的 GUI LLM 工作流构建器。
Vellum
支持构建和测试复杂工作流的 GUI 工具。

这些框架简化了标准化的低级任务，例如调用 LLM、定义和解析工具、串联调用等，让开发者可以快速入门。但同时，它们也引入了额外的抽象层，可能掩盖底层的提示和响应逻辑，增加调试难度。此外，这些框架可能让开发者倾向于增加不必要的复杂性，而一个简单的设置往往已经足够。

开发建议

从直接使用 LLM API 开始

很多模式可以通过少量代码直接实现，无需借助框架。

理解框架的底层逻辑

如果使用框架，确保你了解其底层代码和工作机制。
错误的假设是许多客户问题的常见来源。

基础构建模块：增强型 LLM

增强型 LLM（Augmented LLM） 是智能代理系统的基础构建模块。通过集成检索、工具和记忆等增强功能，LLM 能够主动生成搜索查询、选择合适的工具，并决定需要保留的信息。

在这里插入图片描述

检索（Retrieval）

结合知识库或实时数据源，为任务提供最新和相关的上下文信息。
示例：通过检索机制增强回答复杂问题的准确性。

工具（Tools）

扩展 LLM 的能力范围，使其能够完成复杂任务。
示例：调用计算器进行数学计算，或使用 API 检索实时信息。

记忆（Memory）

支持短期和长期记忆，用于优化交互和任务执行。
示例：保存任务上下文，帮助多轮对话中的语境理解。

在实现增强型 LLM 时重点关注以下两方面：

定制化能力

根据具体的应用场景调整增强功能，使其更贴合业务需求。
确保系统设计能够满足任务目标，同时避免引入不必要的复杂性。

易用性与文档化接口

为 LLM 提供清晰且易用的接口，使开发者能快速理解和使用增强功能。
确保所有功能的文档详尽，便于调试和维护。

增强型 LLM 为智能代理系统奠定了坚实的基础，开发者可以根据任务需求灵活扩展这些能力，从而在更广泛的场景中实现高效应用。

组合式工作流（Compositional Workflows）

以下是 LLM 应用中常见的几种工作流，帮助根据任务需求选择合适的实现方案。

1. Prompt Chaining（提示链）

将任务分解为多个步骤，每次 LLM 调用处理前一步的输出，可在中间步骤设置检查点（Gate）确保流程正确。

在这里插入图片描述

适用场景

任务可以清晰分解为固定子任务。
优先提高准确性，而非追求最低延迟。

示例

生成与翻译：生成营销文案后翻译成另一种语言。
文档撰写：先写提纲，检查合格后再根据提纲撰写内容。

2. Routing（路由）

通过分类输入，将任务分流到不同的后续处理路径或工具，适用于需要专门处理的任务类别。

在这里插入图片描述

适用场景

任务类别明确，分类结果有较高准确性。
每类任务需要独特的处理方式。

示例

客服分流：将常见问题、退款请求、技术支持分类处理。
模型选择：简单问题分配给小模型，复杂问题分配给高级模型。

3. Parallelization（并行化）

同时运行多个任务，最后聚合结果。

在这里插入图片描述

分为两种方式：

分区（Sectioning）：将任务分解为独立子任务并行处理。
投票（Voting）：同一任务多次运行，生成多样化输出。

适用场景

子任务可并行处理以节省时间。
需要多个视角提高结果准确性。

示例

分区：一个模型处理用户查询，另一个负责过滤不当内容。
投票：多次审查代码漏洞，确保更高的检测可靠性。

4. Orchestrator-Workers（协调器-工人）

一个中心 LLM 动态分解任务，分配给多个子 LLM 执行，并整合结果。与并行化不同，子任务由输入动态决定。

在这里插入图片描述

适用场景

复杂任务，子任务无法预定义。
需要动态调整流程的任务。

示例

代码重构：根据需求动态修改多文件内容。
搜索任务：整合多源信息，分析相关内容。

5. Evaluator-Optimizer（评估器-优化器）

一个 LLM 生成结果，另一个 LLM 评估反馈，循环优化，直至满意为止。

在这里插入图片描述

适用场景

任务有明确评估标准，迭代优化有显著提升。
LLM 能生成有价值的反馈并进行改进。

示例

文学翻译：翻译 LLM 输出后由评估器提供改进建议。
复杂搜索：多轮搜索和分析，以确保信息全面。

以上工作流为不同场景提供了结构化的解决方案，帮助在任务复杂性、准确性和性能之间找到平衡。

自主智能代理（Autonomous Agents）

随着 LLM 核心能力的成熟——包括理解复杂输入、进行推理和规划、可靠使用工具以及从错误中恢复——Agents（智能代理） 正在生产环境中崭露头角。

在这里插入图片描述

工作方式

任务启动

代理的任务开始于用户命令或与用户的交互讨论。
一旦任务明确，代理便独立规划并执行任务，同时可能在需要时返回用户获取更多信息或判断。

执行过程

在任务执行过程中，代理需要通过工具调用结果、代码执行反馈等，从环境中获取“真实数据”（Ground Truth）来评估任务进展。
代理可以在关键点或遇到阻碍时暂停，并向用户请求反馈。

任务终止

任务通常在完成后结束，但也可以设置停止条件（例如最大迭代次数）以保持控制。

特性与实现

能力范围
代理可以处理复杂任务，但实现通常相对简单，主要由 LLM 在反馈循环中根据环境调用工具完成。
设计重点
工具集和其文档的清晰设计至关重要，确保代理能够正确理解并使用工具。
详见上文工具（“Prompt Engineering your Tools”）中的最佳实践。

Autonomous Agent（自主代理）场景应用

适用场景

面对开放性问题，难以预测所需步骤，且无法硬编码固定路径时。
需要代理进行多轮操作，并对其决策具备一定信任度。
自主代理在可信环境中执行任务时，尤为适合大规模任务的扩展。

注意事项

自主性带来的成本较高，且存在错误积累的风险。
强烈建议在沙盒环境中进行广泛测试，并设置适当的防护措施（Guardrails）。

举个栗子

以下是Anthropic实际实现中的两个示例，展示了智能代理的实际应用场景：

Coding Agent

应用场景：解决 SWE-bench 任务。这些任务需要基于任务描述对多个文件进行修改。
实现方式：智能代理根据任务描述，分析代码库并规划所需的文件更改，逐步执行任务，动态调整策略以完成复杂的代码编辑需求。

“Computer Use” Reference Implementation

应用场景：让 Claude 使用计算机完成任务。
实现方式：通过工具调用、环境交互等手段，代理能够在真实的计算环境中操作，如执行命令、检索数据或完成复杂计算任务。

在这里插入图片描述

代理通过自主规划和反馈机制，展现出强大的灵活性和扩展性，是应对复杂任务的重要工具，但也需要精心设计和严格测试以确保其稳定性和可靠性。

Agents 历史发展

AI Agent 的概念和技术经历了多年的发展，逐渐从理论走向实际应用。以下内容基于 https://arxiv.org/pdf/2308.11432 进行简要回顾：

在这里插入图片描述

AI Agent 应用

以下为部分案例与展示内容：https://x.com/omooretweets/status/1740774601876177375。

在这里插入图片描述

可见，截至 2023 年，AI Agent 的应用已经覆盖了多个领域，展示了其强大的泛化能力和广泛的适用性。2024 年，随着技术的成熟，AI Agent 的应用场景更加多元化，等我回头整理整理。

最近 Anthropic 也给出了今年的示例：

通过与客户的合作，Anthropic发现两类应用场景特别适合 AI Agents。这些场景展示了智能代理在需要结合对话和行动、有明确成功标准、启用反馈循环并融入有效人工监督的任务中所能创造的实际价值。

A. Customer Support（客户支持）

客户支持结合了熟悉的聊天机器人界面和工具集成增强功能，为更开放的智能代理应用提供了天然契合点：

对话流自然

支持交互通常遵循对话流程，但同时需要访问外部信息和采取实际行动。

工具集成

可调用工具以检索客户数据、订单历史及知识库文章。

自动化操作

通过编程执行退款、更新工单等任务。

成功可量化

成功通过用户定义的解决标准（如问题解决或任务完成）进行衡量。

示例
多家公司通过基于使用的定价模型验证了这种方法的可行性，仅对成功解决问题收费，展现了对其代理效果的信心。

B. Coding Agents（代码代理）

软件开发领域展现了 LLM 功能的巨大潜力，其能力已从代码补全发展到自主问题解决。代码代理在以下方面表现出色：

解决方案可验证

代码解决方案可通过自动化测试验证正确性。

反馈驱动优化

代理可以根据测试结果迭代改进代码。

问题空间明确

软件开发的问题空间通常结构化且定义清晰。

输出质量可衡量

通过功能性测试客观评估输出质量。

示例
在Anthropic的实现中，代理已能够基于拉取请求描述（Pull Request Description）解决 SWE-bench Verified 基准测试中的实际 GitHub 问题。虽然自动化测试可以验证功能，但人工审查仍然是确保解决方案符合更广泛系统需求的关键。

如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。