大模型必知干货：靠这篇搞懂AI Agent原理！

那 AI Agent 具体是怎么工作的呢？目标：人类给的终点，比如「赢一盘围棋」。观察：AI 感知到的当前情况，比如「棋盘上黑白子的位置」。行动：AI 根据观察决定做啥，比如「在第 5 行第 7 列落子」。环境变化：行动引发的结果，比如「对手回了一步」。循环：不断观察、行动，直到目标达成。举个例子，AlphaGo 就是个经典的 AI Agent。它的目标是「赢棋」，观察是「当前棋盘状态」，行动是「

和老莫一起学AI

1008人浏览 · 2025-03-11 19:54:52

和老莫一起学AI · 2025-03-11 19:54:52 发布

随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~

这篇文章是对台大李宏毅老师 2025 年 3 月 9 日的一堂课的转述和解读，主题是 AI Agent。

我们会从基础定义讲起，一步步剖析 AI Agent 的工作原理、关键能力，再看看它能干啥、还差在哪儿。

01AI Agent 是什么？为什么它突然火了？

如果你最近刷过科技新闻，可能会发现「AI Agent」这个词频频出现。

其实它已经不是第一次走进大众视野了，2023 年的时候 AutoGPT/MetaGPT 的出现就火过一阵，而随着大语言模型（LLM）技术、市场的不断演进，到了 2025 年，大家的目光再一次聚焦到了 AI Agent 这个方向上。

想象一下，你有个超级聪明的助理。你不用告诉它每一步怎么做，只需要说：「帮我订一张去上海的机票，预算 2000 元。」它就会自己上网查航班、比价、填表单，最后把票订好。

这样的「助理」就是 AI Agent 的核心想法——它不是等着你发号施令，而是自己想办法达成目标。

这和我们平时用的 ChatGPT 有点不一样，对吧？ChatGPT 是你问一句，它答一句，而 AI Agent 更像一个「主动做事的小能手」。

02AI Agent 的本质：从「听话」到「主动」

1.AI Agent 和普通 AI 的区别

先搞清楚一个问题：AI Agent 到底跟我们常用的 AI 有什么不一样？

假设你问 ChatGPT：「AI Agent 的中文是什么？」它会老老实实回答：「AI Agent 的中文是『人工智能代理』。」这就是典型的 AI——你给指令，它执行，完事。

但 AI Agent 不一样。你如果对它说：「帮我研究一下 AI Agent 的定义」，它不会只丢给你一个翻译，而是可能会自己去搜资料、分析不同观点，最后整理出一份报告。

简单来说：

普通 AI：像个听话的工具，你说「跳」，它就跳一下。
AI Agent：像个有主动性的助手，你给个目标，它自己规划怎么跳、跳多高。

用课程里的比喻，普通 AI 是「一个口令一个动作」，而 AI Agent 是「人类只给目标，AI 自己找路」。

以一个「研究任务」为例，展示 AI Agent 如何工作：

2.AI Agent 的定义和工作循环

那 AI Agent 具体是怎么工作的呢？

课程里给了个清晰的框架，可以用一张图来概括：

目标：人类给的终点，比如「赢一盘围棋」。
观察：AI 感知到的当前情况，比如「棋盘上黑白子的位置」。
行动：AI 根据观察决定做啥，比如「在第 5 行第 7 列落子」。
环境变化：行动引发的结果，比如「对手回了一步」。
循环：不断观察、行动，直到目标达成。

举个例子，AlphaGo 就是个经典的 AI Agent。它的目标是「赢棋」，观察是「当前棋盘状态」，行动是「落子」，然后对手回应，它再观察、再行动。

这个循环听起来是不是很像我们人类解决问题的方式？先看情况，想办法，试一下，再调整。

这个工作循环体现了 AI Agent 的自主性和反应式架构——像人类一样通过试错逼近目标，而非单纯执行预设指令。

3.为啥 AI Agent 跟强化学习（RL）有关？

如果你学过机器学习，可能会觉得这个循环很眼熟。它跟强化学习（Reinforcement Learning，RL）的思路很像。

RL 的核心是让 AI 通过试错学会最大化「奖励」（Reward）。比如 AlphaGo，赢棋 Reward 是 +1，输棋是 -1，它通过无数次模拟对局，学会怎么下才能赢。

但传统的 AI Agent 多靠 RL 打造，比如 AlphaGo 得专门为围棋训练一个模型。可问题来了：换个任务，比如下象棋，它还得重头练。这就有点笨拙了。

而现在，AI Agent 之所以又火起来，是因为我们有了新玩法——直接用大型语言模型（LLM）当 Agent，不用每次都重新训练。这是个大转折，后面会细讲。

03AI Agent 的新灵魂：大型语言模型（LLM）

1.LLM 如何变身 AI Agent？

过去，RL 打造的 AI Agent 虽然强，但局限明显：一个模型只能干一件事。现在有了 LLM（像 ChatGPT、Grok 这样的语言模型），情况变了。

LLM 的超能力在于通用性——它能理解文字、回答问题、写代码，甚至看图说话。那能不能直接让它当 AI Agent 呢？

答案是可以的！LLM 驱动的 AI Agent 是这样工作的：

目标用文字输入：比如「帮我下赢围棋」。
环境转成文字或图片：棋盘状态可以用文字描述（「黑子在 A1，白子在 B2」），或者直接给图片。
行动用文字输出：LLM 说「我要在 C3 落子」，然后有人或系统把这文字转成实际操作。
循环直到成功：环境变了，LLM 再观察、再输出新行动。

这跟 RL 的区别是：LLM 不用专门训练，它靠已有的语言理解能力，直接「猜」下一步该干啥。是不是很省事？

2.LLM 做 Agent 的优缺点

优点：

灵活性：不像 AlphaGo 只能下围棋，LLM 能处理各种任务，只要你能用文字描述目标。
无需定义 Reward：RL 得手工设计奖励函数（比如「赢棋 +1」），但这很难调。LLM 直接读懂目标和反馈，比如给它个错误日志，它自己就能改代码，不用你说「错一次 -1」。
无限可能：LLM 能输出任何文字，行动空间几乎无限制，而 AlphaGo 只能在 19×19 的棋盘里挑一个点。

缺点：

不靠谱：LLM 本质是「文字接龙机」，它可能瞎猜一步，而不是深思熟虑。
依赖描述：环境得转成文字或图片，如果描述不清楚，它就懵了。

前一段有一个新闻，有人让 ChatGPT 和 DeepSeek 下象棋，结果它们把「兵」当「马」跳，还凭空变出棋子，最后 DeepSeek 吃了自己一子宣布胜利，ChatGPT 还认输了……这说明，LLM 做 Agent 还得磨练。

04AI Agent 的三大关键能力

课程里把 AI Agent 的能力拆成三块：根据经验调整行为、使用工具、做计划。这三点决定了它能不能从「听话工具」进化成「聪明助手」。

1.根据经验调整行为

这个能力为什么重要？

人类做事靠经验，AI Agent 也一样。比如你写代码报错，编译器告诉你「缺个分号」，下次你就记得加分号。AI Agent 得有类似能力，看到反馈后调整下一步。

LLM 怎么做到？

LLM 不用调参数，直接把反馈塞进输入，它就变聪明了。比如：

输入：「写个加法函数。」
输出：「def add(a, b): return a + b」
反馈：「有错，b 没定义类型。」
新输入：「写个加法函数，反馈说 b 没定义类型。」
新输出：「def add(a: int, b: int) -> int: return a + b」

这靠的是 LLM 的「上下文学习」（In-Context Learning），不用训练，输入变了，输出就变。

挑战：记忆爆炸

如果每次行动都把历史全塞给 LLM，步数一多（比如 1 万步），输入就太长，算力撑不住。怎么办？

课程提了三个模块：

Write（写入）：决定啥值得记。比如「桌子在那儿」不重要，「对手下了关键一步」才记。
Read（读取）：从记忆里挑相关经验，像 RAG（检索增强生成）技术，从海量数据里找有用的。
Reflection（反思）：总结经验，比如「对手老爱走中间，我得防着点」。

实验发现，正面反馈（「这步对了」）比负面反馈（「这步错了」）更有效，因为 LLM 更擅长照着「好例子」学。

2.使用工具

为什么需要工具？

LLM 再强，也有短板。比如它不会直接查天气，得靠外部工具。工具就像 AI Agent 的「外挂」，让它能干更多事。

怎么用？

一个通用方法：

告诉它工具咋用：比如用 Temperature(地点, 时间) 查温度。
输入问题：今天台北多热？
输出指令：[Tool] Temperature(台北, 现在) [Tool]
执行并反馈：[Output] 28°C [Output]
最终回答：台北现在 28°C。

常用工具包括：

搜索引擎：查资料（RAG）。
代码执行器：写程序并运行。
其他 AI：比如让语音 AI 帮它听音频。

挑战：工具多了咋办？

工具一多（比如上千个），LLM 不可能全记住。解决办法是用「工具选择模块」，像 RAG 一样，从工具库里挑合适的。更有趣的是，LLM 还能自己写代码造工具，存起来复用。

小心工具出错

工具可能给错信息，比如搜索引擎搜到恶搞贴说「披萨起司用胶水粘」。LLM 有一定判断力（比如「1 万度太离谱」），但有时也会被忽悠，得教它别太信工具。

3.做计划

什么是计划？

计划就是先想好步骤再行动。比如刷牙：找牙刷 → 挤牙膏 → 刷 → 漱口。AI Agent 也得会规划，不然每步都随机试，太笨了。

LLM 能规划吗？

能，但不完美。给它说「做百万订阅 YouTuber」，它能列个计划：选主题 → 优化标题 → 做直播……听起来不错，但细节常出错。比如安排旅行，它可能忘了预算限制，或者行程撞车。

怎么提升？

有几个思路：

试错法（Tree Search）：每步都试试，挑最好的。但算力成本高，得剪掉没希望的路。
脑内模拟（World Model）：让 LLM 自己猜下一步会咋样，像做梦一样规划。比如网页买东西，它先想象「点这个会跳到哪」。
用工具帮忙：复杂限制（像预算）交给专门的求解器，LLM 只管写代码调用。

实验显示，新模型（如 o1）在「神秘方块世界」这种怪题上表现更好，说明推理能力帮了大忙。但有时它们也「想太多」，光模拟不行动。

05未来展望

AI Agent 能干啥？

游戏：AI NPC自己聊天、办派对，甚至建社区。
用电脑：订 Pizza、买票，像人类一样操作屏幕。
科研：提研究提案、做实验。
训练 AI：写代码跑模型，调参数，比 baseline。

短板在哪？

不稳定：下棋能胡来，旅行计划超预算。
依赖环境描述：描述不清就抓瞎。
想太多或太少：要么卡在脑内模拟，要么直接放弃。

AI Agent 离「全能助手」还有多远？

实时互动：像语音对话，得随时调整，不能一问一答。
更好记忆：挑重要经验，别记鸡毛蒜皮。
更强规划：结合推理和工具，少想多做。

结语

AI Agent 是 AI 从「工具」到「伙伴」的进化。它用 LLM 的通用性，摆脱了 RL 的局限，虽然还不完美，但潜力巨大。

未来，LLM 可能不仅是 Agent 的「大脑」，还能模拟环境、造工具，甚至自己进化。到那时，你说「帮我赚一百万」，它真能自己开公司也说不定。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

大模型就业发展前景

根据脉脉发布的《2024年度人才迁徙报告》显示，AI相关岗位的需求在2024年就已经十分强劲，TOP20热招岗位中，有5个与AI相关。
在这里插入图片描述字节、阿里等多个头部公司AI人才紧缺，包括算法工程师、人工智能工程师、推荐算法、大模型算法以及自然语言处理等。

除了上述技术岗外，AI也催生除了一系列高薪非技术类岗位，如AI产品经理、产品主管等，平均月薪也达到了5-6万左右。
AI正在改变各行各业，行动力强的人，早已吃到了第一波红利。