本文深入剖析了 AI Agent 的四大核心组件:大脑(LLM)、规划、工具和记忆。将 AI Agent 比喻为智能餐厅,其中大脑如同主厨兼经理,负责理解意图、推理决策和发出指令;规划如同出餐 SOP,将复杂任务拆解为有序步骤;工具如同厨具和帮手,将决策变成真实动作;记忆如同顾客记录本,让 Agent 记住上下文和长期知识。文章详细介绍了每个组件的功能和运作方式,并解释了它们如何协同工作,通过 Agent Loop 实现任务的高效完成。理解这四大组件,才能真正掌握 AI Agent 的内部结构和工作原理。


上一篇我们说到,AI Agent 的公式是:

Agent = 大脑(LLM)+ 规划(Planning)+ 工具(Tools)+ 记忆(Memory)

今天第二篇,我们来把这四个组件挨个拆开,搞清楚它们各自是什么、怎么运作的。

理解了这四个组件,你就真正懂了 AI Agent 的内部结构。


先用一个比喻热热身

有一个比喻我觉得特别贴切,可以把 AI Agent 想象成一家智能餐厅

  • 大脑

    = 主厨兼经理(听懂你想要什么、指挥所有人干活)

  • 工具

    = 厨具和帮手(把决策变成真实动作)

  • 记忆

    = 顾客记录本(记住你不吃香菜、上次点了什么)

  • 规划

    = 出餐 SOP(把复杂菜肴拆解成有序的操作步骤)

四个东西缺一不可。光有主厨没有厨具,做不出菜;光有厨具没有主厨,乱成一锅粥。


组件一:大脑(LLM)

核心职责:听懂需求 → 思考决策 → 发出指令

大脑就是驱动 Agent 的大语言模型,比如 GPT、Claude、DeepSeek、通义千问。

它做的事情主要有三件:

第一件:理解你的意图

你说"帮我查明天北京天气,如果下雨就提醒我带伞",大脑要解析出:查天气、判断条件、发提醒——三件事。

第二件:推理和决策

结合当前情况和已有的信息,判断下一步该做什么,选哪个工具,传什么参数。

第三件:决定是否调用工具

“我需要查天气,用天气 API”——这个判断是大脑做的,不是硬编码的规则。

有一个关键点要记住:

这就是为什么现在大家都在卷基础模型——底层的大脑越聪明,上层的 Agent 能力越强。


组件二:规划(Planning)

核心职责:把复杂任务拆解成有序的步骤

你让 Agent 帮你写一份竞品分析报告,它不会直接开始写。它会先在脑子里生成一个计划:

  1. 搜索竞争对手 A、B、C 的基本信息
  2. 分别整理各家产品的核心功能
  3. 对比定价和目标用户
  4. 把对比结果写成结构化分析
  5. 检查一遍,确认没有遗漏

这个"想清楚再干"的过程,就是规划。

规划有几种不同的策略

实际的 Agent 系统里有几种常见的规划方式,了解它们可以帮你理解 Agent 为什么有时候"很会思考":

CoT(链式思维):先把推理过程一步步写出来,再给出结论。适合数学推理、逻辑分析这类需要严密思考的任务。

ReAct(推理 + 行动交替):思考一下,执行一步,看结果,再思考,再执行……循环推进。这是目前最主流的方式,适合需要工具调用的动态任务。

Reflection(自我反思):任务完成后,Agent 回头审视自己的输出,发现问题就修正。适合代码生成、长文写作这类需要质量把控的场景。

一个真实的 ReAct 执行过程是这样的:

注意每一步都有思考,行动后再观察结果,根据结果调整——这就是规划能力让 Agent "会拐弯"的原因。


组件三:工具(Tools)

核心职责:把决策变成真实动作

大脑再聪明,它本质上也只是在生成文字。让 Agent 真正"能干活"的,是工具。

工具分四大类:

信息获取类

联网搜索、网页抓取、文档读取、数据库查询——用来获取 Agent 自身知识库以外的实时信息。

计算执行类

代码解释器、数学计算引擎——处理需要精确计算或程序逻辑的任务,大脑自己算数容易出错,交给工具就准了。

内容生成类

图像生成、语音合成、文档导出——输出文字以外的内容形式。

系统交互类

API 接口、邮件、日历、文件操作——和外部系统、真实世界互动。

用餐厅比喻:大脑是主厨,工具是厨具和帮手。主厨决定做什么菜,但没有刀、锅、烤箱,什么也做不了。

工具是怎么被调用的?

现代大模型通过一个叫 Function Calling(函数调用) 的机制来使用工具。

简单说就是:开发者提前告诉大模型"你有哪些工具可用、每个工具能做什么、需要传什么参数",大模型在推理的时候,会以结构化的方式输出"我现在要调用这个工具,传入这些参数",然后外部程序执行并把结果返回给大模型。

整个过程对用户来说是透明的,你只是说了个需求,Agent 在背后自己判断调用了什么、做了什么。


组件四:记忆(Memory)

核心职责:让 Agent 记住上下文,不做"失忆助手"

你肯定用过 AI 时有过这种感受:上次告诉它你是做运营的,这次问问题它又完全不知道你是谁——每次都从零开始。

这就是没有记忆系统的问题。

Agent 的记忆分四种:

短期记忆:当前对话的上下文窗口。你刚说了"帮我查鱼的做法",下一句说"要微辣的",它知道微辣是指鱼——这靠的是短期记忆。受限于模型的上下文长度,一般是几千到几十万个 Token。

长期记忆:存在外部数据库里的持久化信息,比如"这个用户是素食主义者"、“这家公司的主要产品是 XXX”。通常通过向量数据库实现。

情节记忆:历史任务的执行记录——“上次遇到这种情况我是怎么处理的”,帮助 Agent 从过去的经验里学习改进。

语义记忆:抽象的知识和事实,大部分来自模型预训练时已经内化的内容,也可以通过 RAG 技术动态补充。

RAG:给 Agent 装上"外挂知识库"

RAG(检索增强生成)是目前最主流的长期记忆解决方案,值得单独说一下。

它的核心思路是:不把所有知识都塞进模型训练,而是用的时候再查

具体流程:

  1. 把你的知识库(文档、数据等)切成小块,转成向量存起来
  2. 用户提问时,先在向量库里检索最相关的内容
  3. 把检索到的内容附在问题后面,一起交给大脑
  4. 大脑结合检索到的信息给出回答

这样 Agent 就能"知道"它自己原本不知道的信息——你公司的内部文件、私有知识库,都能成为它的参考资料。

RAG 技术我们后面会有单独一篇详细讲,这里先知道它是干什么的就行。


四个组件怎么协作?

单独理解每个组件还不够,关键是它们怎么配合——这就是 Agent Loop(Agent 运行循环)

Agent 不断在这个循环里转:

感知 → 思考 → 行动 → 观察 → 感知 → 思考 → …

一直循环,直到任务完成或达到终止条件。

如果某一步出错了,"观察"环节会把错误反馈给大脑,大脑在下一轮思考时调整策略。这就是为什么 Agent 有时候能自我纠错——不是奇迹,是循环机制。

用上面的例子走一遍:

你说"查明天北京天气,如果下雨提醒小王带伞":

  1. 感知层

    :接收指令,识别出"北京"、“明天”、“小王”

  2. 大脑

    :分析出两步任务——查天气 + 条件成立就发提醒

  3. 规划

    :先查天气 → 判断是否下雨 → 写提醒 → 发送

  4. 工具

    :调用天气查询工具,拿到"明天有雨"

  5. 记忆

    :在通讯录(记忆库)里找到小王的联系方式

  6. 工具

    :调用发送消息工具,把提醒发出去

  7. 观察

    :确认发送成功,循环终止


快速总结

组件

餐厅类比

核心职责

大脑(LLM)

主厨兼经理

理解意图、推理决策、发出指令

规划(Planning)

出餐 SOP

任务拆解、步骤排序、自我反思

工具(Tools)

厨具和帮手

执行真实操作,连接外部世界

记忆(Memory)

顾客记录本

管理上下文,存储长期知识

四个组件,缺了哪个都会残废:

  • 没有大脑:不知道该做什么
  • 没有规划:只会做简单任务,复杂任务乱成一团
  • 没有工具:只能输出文字,做不了真实操作
  • 没有记忆:每次从零开始,做不了持续性任务

假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。

接下来告诉你一条最快的邪修路线,

3个月即可成为模型大师,薪资直接起飞。
img

阶段1:大模型基础

img

阶段2:RAG应用开发工程

img

阶段3:大模型Agent应用架构

img

阶段4:大模型微调与私有化部署

img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇
在这里插入图片描述
img

img

img

img
img

配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐