P.S. 无意间发现了一个巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01

开场:AI 终于不是"问一句答一句"的复读机了

以前你跟大模型聊天,感觉像在跟一个很会考试但生活不能自理的书呆子对话。

你问它"明天北京天气怎么样",它说"我无法获取实时信息"。你问它"这张图片里有几只猫",它说"我是文本模型,无法识别图像"。你问它"帮我订个外卖",它说"我没有手脚"。

好家伙,三句话不离"我不会"。这要是面试,第一轮就被刷下去了。

但 Agent 不一样。Agent 是什么?Agent 是那个你说"帮我策划一场周末露营",它真的能去查天气、找营地、列装备清单、甚至给你发邮件提醒别忘了带帐篷的主动型选手。

它有眼睛(感知)、有脑子(大脑)、有记性(记忆)、有手脚(动作),还有一套自己的方法论(思考方式)。

说白了,普通 LLM 是Siri Plus,Agent 是贾维斯 Lite。

一、感知与动作:AI 的五官和手脚

1.1 感知层:AI 的"五感"正在充值

人靠眼耳鼻舌身感知世界,AI 靠啥?

靠 NLP(读文字)、CV(看图片)、ASR(听声音)。

这就好比 AI 以前是个只会读盲文的盲人,现在突然做了全感官移植手术——能看、能听、能读,虽然视力可能还在 0.5 左右,但总比之前强。

多模态融合:别让我"又看又听"还得切换 App

以前处理一张带文字的图片,流程是这样的:先找个 OCR 模型把文字抠出来,再找个 LLM 理解文字含义,最后人工把两个结果拼在一起。

这就像你吃饭要先用筷子夹菜,再换勺子喝汤,再换叉子吃牛排——一顿饭吃出了三种餐具的仪式感。

MLLM 说:“别折腾了,我全都要。”

文本、图像、语音、视频,全部塞进一个模型,统一编码成向量,在同一个语义空间里理解。就像你终于遇到了一个能边刷抖音边回微信还能顺便听播客的朋友——虽然可能每件事都没那么专注,但至少人家能同时干。

人 vs Agent:人的感官是出厂自带的,看和听天然同步。AI 的感官是后期组装的,看和听有时候还对不上焦。比如你给 AI 发一张"狗在追飞盘"的图,它可能识别出"狗"和"飞盘",但理解不了"追"这个动作——就像你奶奶看 3D 电影,戴不戴眼镜都是 2D 的。

1.2 动作层:AI 从"键盘侠"到"动手党"

感知是输入,动作是输出。AI 不能光说不练。

三类动作,从线上到线下

  • 虚拟输出:写代码、画图、生成 PPT、自动填表。这是 AI 的舒适区,相当于你让 AI 写篇小作文,它洋洋洒洒三千字,还自带参考文献格式。
  • 设备操作:控制手机、电脑、智能家居。这是 AI 的客厅区,相当于你躺在沙发上喊"小爱同学开灯",但 AI 现在能帮你把灯调成"适合看恐怖片的暗红色",顺便把窗帘拉上——它开始懂氛围了。
  • 机器人:具身智能,线下物理操作。这是 AI 的健身房区,相当于你让 AI 去厨房给你倒杯水,它可能把杯子砸了、把水洒了、还差点把猫踩了——但它在努力。

工具调用:AI 的"瑞士军刀"

Agent 最骚的操作是工具调用。它知道自己不会算复杂公式,就调用计算器;知道自己不知道实时股价,就调用搜索引擎;知道自己不会画画,就调用 DALL-E。

这就像你遇到一个特别会借力打力的同事:“这个我不会,但我认识一个会的人。”

关键是,它认识很多人。

人 vs Agent:人在物理世界的精细操作还是碾压 AI 的。你拧螺丝不会把螺丝刀拧飞,但机器人可能会。不过 AI 在虚拟世界和跨设备并行操作上已经赢麻了——你同时操作三台手机会精神分裂,AI 同时操作三百台手机只是常规并发。

二、大脑:从"只会分类"到"啥都懂一点"

2.1 大脑的进化史:一个学渣的逆袭

AI 的大脑经历了三个阶段,像极了一个人从技校到本科再到研究生的成长轨迹。

阶段一:分类器——技校毕业的蓝领

传统机器学习,只会做一件事:分类。

“这是猫还是狗?”“这封邮件是垃圾邮件还是正常邮件?”“这位客户会不会流失?”

边界清晰、任务明确、成本低廉。但问题是——每个任务都要重新训练。

就像你雇了一个只会贴瓷砖的工人,你让他刷墙,他说"得加钱,还得重新培训三个月"。

而且分类器不会生成,不会推理。你问它"为什么这是猫",它说"因为我的权重矩阵算出来这个概率最大"。

说了等于没说。

阶段二:LLM——本科毕业的通才

2018 年 GPT-1 和 BERT 出世,AI 突然从"专才"变成了"通才"。

一个模型,能写诗、能写代码、能翻译、能聊天、能总结文档。你问它啥它都能唠两句,虽然有时候在一本正经地胡说八道。

但 LLM 有个致命缺陷:它是个"书呆子",只懂文字,不懂世界。

你给它一张图片,它说"我看不见"。你给它一段语音,它说"我听不见"。你让它控制你的手机,它说"我没有手"。

典型的纸上谈兵。

阶段三:MLLM——研究生毕业的多面手

2023 年 GPT-4V 出世,AI 终于戴上了眼镜、装上了耳朵。

文本、图像、语音、视频,全部能处理。你发一张外卖截图,它能读出菜单、算出总价、还能推荐"这家店的辣子鸡比宫保鸡丁好吃"。

它开始像一个真正在世界里生活的人,而不是一个关在图书馆里背书的学霸。

演进时间线:

  • 2012 AlexNet:AI 开始"看见"世界
  • 2017 Transformer:给 AI 造了一个更聪明的大脑结构
  • 2018 BERT/GPT-1:AI 开始"理解"语言
  • 2020 GPT-3:AI 开始"涌现"出意想不到的能力
  • 2022.01 CoT:AI 学会了"一步一步想"
  • 2022.11 ChatGPT:AI 开始跟普通人聊天了
  • 2023 GPT-4/Gemini:AI 开始"看听说想"一体化
  • 2024-今:Agent 全面落地,AI 开始"打工"

三、思考方式:AI 的"脑回路"

有了大脑,还得有思考方式。不然就像给你一台超级计算机,但你只会用它玩扫雷。

3.1 CoT:让 AI 学会"一步一步想"

CoT(Chain of Thought,思维链)是 AI 思考方式的基石。

原理很简单:以前你问 AI “一个农场有 17 只羊,死了 9 只,还剩几只?”,AI 可能直接回答"8 只"——虽然数学上是对的,但它没展示过程。

有了 CoT,AI 会回答:“首先,农场原有 17 只羊。然后,死了 9 只。所以,17 减 9 等于 8。还剩 8 只羊。”

过程比结果重要。 因为当 AI 把思考过程写出来,它更容易发现错误,也更容易被人类理解和调试。

这就像你让朋友帮忙算账,以前他直接给你个总数,你不敢信。现在他把每一笔明细都列出来,虽然你可能还是不敢信,但至少你能挑错了。

3.2 ReAct:边想边做,像个人类

ReAct(Reasoning + Acting)是 AI 的行动派思考方式。

它的逻辑是:不是先想完再做,而是想一步、做一步、看结果、再调整。

比如你要查"2026 年奥斯卡最佳影片的导演是谁"。

ReAct 的 AI 会这样:

  1. 思考:我需要搜索 2026 年奥斯卡最佳影片。
  2. 行动:调用搜索引擎。
  3. 观察:搜索结果显示是《某某电影》。
  4. 思考:现在我知道电影名了,需要查导演。
  5. 行动:再搜索一次"某某电影 导演"。
  6. 观察:导演是某某某。
  7. 思考:我找到答案了。

这像什么?像极了你我查资料的过程。 不是一次性全想明白,而是边做边调整。

3.3 Plan-Execute:先画蓝图,再搬砖

Plan-Execute 是规划派。先制定详细计划,再一步步执行。

比如你说"帮我组织一场 50 人的团建"。

Plan-Execute 的 AI 会先:

  1. 确定预算
  2. 选定地点
  3. 安排交通
  4. 预订餐饮
  5. 设计活动流程
  6. 发送邀请

然后才开始执行。

优点是条理清晰,缺点是计划赶不上变化。 就像你精心策划了一场户外烧烤,结果当天暴雨——Plan-Execute 的 AI 可能会坚持"按原计划执行,只是大家淋雨吃烤串"。

3.4 Reflection:自我反思,AI 也开始内耗了

Reflection 让 AI 做完事后复盘。

“我刚才的回答对吗?”“有没有更好的方式?”“用户为什么不满意?”

AI 终于也开始内耗了。

但内耗是有价值的。通过反思,AI 能不断优化自己的策略。就像你每次项目结束后写复盘文档——虽然写的时候很痛苦,但下次确实能少踩几个坑。

3.5 Multi-Agent:AI 也开始"开会"了

Multi-Agent 是多个 AI 协同工作。

一个 Agent 负责写代码,一个 Agent 负责审代码,一个 Agent 负责写测试,一个 Agent 负责写文档。

四个 AI 开一场评审会,比四个真人开会更高效——因为它们不会聊八卦、不会点奶茶、不会说"这个需求很简单,怎么实现我不管"。

人 vs Agent:人类的思考方式更灵活,会直觉跳跃、会灵光一闪。AI 的思考方式更机械,但每一步都可追溯、可调试。人类是"黑盒艺术家",AI 是"白盒工程师"。


四、记忆层:鱼的记忆 vs 大象的记忆

4.1 短期记忆:上下文窗口——AI 的"七秒记忆"

短期记忆就是上下文窗口。你跟 AI 聊天,它能记住前面说了什么,靠的就是这个。

但上下文窗口有限。早期的 GPT-3 只有 2K token,相当于记住一篇短文。现在的模型动辄 128K、200K,相当于能记住一本书。

但记住一本书,和真正理解一本书,是两回事。

就像你大学期末考试前一夜背完整本教材,第二天考完就全忘了。AI 的短期记忆也类似——聊完这个会话,换个窗口,它就不认识你了。

“我们昨天不是聊过吗?”

“抱歉,我没有记忆。”

渣 AI。

4.2 长期记忆:RAG 向量库——AI 的"外置硬盘"

长期记忆解决的是"知识装不下"的问题。

AI 模型的参数是固定的,它不可能记住世界上所有信息。那怎么办?

RAG(Retrieval-Augmented Generation,检索增强生成) 就是给 AI 配了一个外置硬盘。

你把公司的内部文档、产品手册、历史聊天记录,全部向量化存进向量数据库。当 AI 回答问题时,先去向量库里搜相关内容,再把搜到的内容塞进上下文窗口,最后基于这些内容生成回答。

这就像开卷考试。 AI 不需要背下整本书,只需要知道去哪里查,查到了就能答。

人 vs Agent:人类的长期记忆是模糊但关联的。你想起"大学食堂的饺子",可能会连带想起"那个冬天特别冷"“室友把醋打翻了”“食堂阿姨多给了我一个”——一系列画面和情感同时涌现。AI 的长期记忆是精确但孤立的,它检索到的就是那几个向量,没有温度,没有故事,只有事实。

五、能力协作:AI 的"社交圈"

5.1 Tools:AI 的"原子动作"

Tools 是 AI 能调用的最小功能单元。搜索、计算、发邮件、查天气、调 API——每个都是一个 Tool。

Tools 是 AI 的"手"。 没有 Tools,AI 只能动嘴皮子;有了 Tools,AI 真的能动手做事。

5.2 MCP:统一接口标准——AI 的"万能充电器"

MCP(Model Context Protocol)是 Anthropic 推出的协议,相当于给 AI 的工具接口定了一个统一标准。

以前每个工具都有自己的接口格式,AI 调用起来像出国旅游——每到一个国家就得换一张电话卡、学一种插头标准。

MCP 说:“别折腾了,全部统一成 Type-C。”

一个协议,所有工具通吃。 AI 终于不用当"接口适配器工程师"了。

5.3 A2A:Agent 之间的"微信"

A2A(Agent to Agent)是 Agent 之间的通信协议。

以前多个 Agent 协作,就像两个不会说对方语言的人比划手势——能沟通,但效率低、容易误解。

A2A 给它们配了一个通用翻译器。现在 Agent A 说"帮我查一下库存",Agent B 能准确理解并执行,还能把结果格式化成 Agent A 能读的样子。

AI 终于也有了自己的微信群里。

人 vs Agent:人类的协作靠语言、靠默契、靠"你懂的"。AI 的协作靠协议、靠标准、靠精确的数据格式。人类协作有温度但容易扯皮,AI 协作冰冷但从不撕逼。

六、Skill:经验包,打工人必备

6.1 什么是 Skill?

Skill 是可复用的经验包。

你第一次让 AI 写一份项目报告,它从零开始摸索格式、结构、措辞。第二次你再让它写,它应该直接调用上次的经验——这就是 Skill。

Skill 可以是:

  • 一套固定的工作流(“写周报的标准流程”)
  • 沉淀的提示词模板(“让 AI 输出更专业的魔法咒语”)
  • 领域知识库(“医疗诊断的专用术语和判断逻辑”)

6.2 Skill 的本质:别让 AI 每次都重新发明轮子

没有 Skill 的 AI,就像一个每次做 PPT 都从零开始调字体、配色、动画的实习生。

有了 Skill 的 AI,像一个自带模板库的老员工——打开 PowerPoint,直接调用"季度汇报模板",填数据就行。

Skill 让 AI 从"新手"变成"熟手"。

人 vs Agent:人类的 Skill 是肌肉记忆和直觉。你骑自行车不需要思考"先蹬左脚还是右脚",你写代码不需要查"for 循环怎么写"。AI 的 Skill 是显式的规则和数据,它每次都要"读取"一遍,没有肌肉,只有记忆。

七、编排框架:从想法到代码

7.1 LangChain:AI 应用的"脚手架"

LangChain 是最早流行的 Agent 编排框架。它提供了一套标准组件:模型接口、提示词模板、记忆管理、工具调用、链式执行。

它像建筑工地的脚手架——不是房子本身,但能让你更快搭起房子。

7.2 LangGraph:当 AI 的工作流变得复杂

LangGraph 是 LangChain 的进阶版,专门处理有状态、有循环、有分支的复杂工作流。

比如一个客服 Agent:先理解用户问题,然后判断是技术问题还是账单问题,技术问题走 A 流程,账单问题走 B 流程,如果 A 流程解决不了再转人工——这种带分支和回退的逻辑,LangGraph 能优雅地处理。

它像建筑工地的 BIM 系统——不只是搭架子,还能模拟整个施工流程。

7.3 Deep Agents:更高级的"包工头"

Deep Agents 代表更高级的编排框架,能管理多个 Agent 的协同、调度、监控和容错。

它像建筑工地的总承包商——你不需要管每个工人怎么干活,你只需要说"三个月内把楼盖起来",它自动分配资源、协调进度、处理突发状况。

人 vs Agent:人类写代码是"心流模式",一气呵成。AI 的编排框架是"流水线模式",每个步骤都定义清楚。人类代码可能有诗意,AI 的代码只有确定性。

八、落地场景:AI 打工,人类摸鱼

8.1 赋能:AI 是超级助手

在大多数场景下,AI Agent 不是替代人类,而是增强人类。

  • 程序员:AI 写代码、写注释、写测试,人类负责架构设计和 Code Review。
  • 分析师:AI 爬数据、做清洗、出图表,人类负责解读趋势和做决策。
  • 客服:AI 处理 80% 的常规问题,人类处理 20% 的复杂和情绪问题。
  • 运营:AI 批量生成文案、排版、发布,人类负责策略和创意。

AI 是那只勤劳的蜜蜂,人类是养蜂人。

8.2 替代:AI 开始抢饭碗了

在某些高度标准化、重复性强的领域,AI 确实在替代人类。

  • 数据录入:AI 的准确率比人类高,还不会手酸。
  • 基础翻译:AI 翻译 90% 的内容已经够用,只有文学翻译还需要人类。
  • 简单客服:“我的订单到哪了”“怎么退款”——AI 回答得比人类还快。
  • 初级代码:简单的 CRUD、页面布局、脚本编写——AI 已经能独立完成。

但别慌。 每次技术革命都会消灭一些岗位,也会创造新的岗位。以前没有"提示词工程师",现在有了。以前没有"AI 训练师",现在也有了。

8.3 人工兜底:AI 犯错,人类背锅

AI 不是万能的。它会幻觉(一本正经地胡说八道),会偏见(训练数据里的偏见被放大),会失效(遇到没见过的场景就懵圈)。

所以所有 Agent 系统都需要人工兜底机制。

  • 关键决策:AI 给建议,人类做最终决策。
  • 高风险操作:AI 执行前需要人类确认(“确定要删除这个数据库吗?”)。
  • 异常处理:AI 搞不定时,自动转人工。

AI 是副驾驶,人类才是主驾驶。 你可以让 AI 开一会儿,但方向盘得握在自己手里——尤其是前面有坑的时候。

人 vs Agent:人类的价值在于判断、创造、共情。AI 的价值在于速度、规模、一致性。最好的组合是:AI 做它擅长的,人类做人类擅长的,然后一起早点下班。

结束语:拥抱变化,但别拥抱幻觉

AI Agent 正在从"概念"变成"工具",从"玩具"变成"生产力"。

它像一台新计算机——不是替代旧计算机,而是重新定义了"计算"的边界。以前的计算机处理的是数据,现在的 Agent 处理的是任务。

但记住:Agent 再聪明,也是人类设计的工具。它的目标不是取代你,而是让你从重复劳动中解放出来,去做更有价值的事。

所以,别焦虑,别抗拒,学会用它。

毕竟,会用 Agent 的人,淘汰的是不会用 Agent 的人——而不是被 Agent 淘汰。

P.S. 无意间发现了一个巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐