AI Agent 编年史:2022~2026 五代演进,一篇看透底层逻辑
摘要: 本文梳理 AI Agent 从 2022 年末到 2026 年初的四代演变 + 第五代前瞻,覆盖每一代的核心突破、代表产品、泡沫教训。
目录
- Gen0:被困在对话框里的大脑(2022 末 ~ 2023 初)
- Gen1:工具调用觉醒(2023 年中 ~ 末)
- Gen2:工程化架构取代黑盒魔法(2023 末 ~ 2024)
- Gen3:MCP + Computer Use + Coding Agent(2024Q4 ~ 2025)
- Gen4:技能封装 + 常驻自治(2025 末 ~ 2026)
- Gen5 前瞻:闭环自治与具身化
- 六条底层规律(重点)
- 参考来源
Gen0:被困在对话框里的大脑(2022 末 ~ 2023 初)
2022.11.30 ChatGPT 发布,生成式 AI 第一次走向大众。但 Gen0 有两个致命缺陷:数据滞后+幻觉(不知道实时信息,不知道就说"编一个")、没有行动能力(能写代码但不能跑,能规划旅行但不能订票)。
泡沫:提示词工程师。当时流行"年薪百万的提示词工程师"“PromptBase 提示词市场”,但不到一年就被 GPT-4 的指令理解能力和 System Prompt 吞噬。
💡 个人认为:这是全程反复出现的剧本——新能力出现 → 大量低门槛产品涌入 → 下一代基础设施内化这项能力 → 中间层系统性蒸发。 提示词工程师只是第一次。
Gen1:工具调用觉醒(2023 年中 ~ 末)
拐点: 2023.6.13 OpenAI 发布 Function Calling。模型输出结构化 JSON 而非自然语言,大脑+四肢的架构第一次成为现实。
同期崛起的 RAG + 向量数据库(Pinecone、Milvus、LlamaIndex)解决了知识滞后问题——给模型外挂一个检索型外部记忆。
定制化三部曲:ChatGPT Plugins(2023.3)→ Custom Instructions(2023.8)→ GPTs + Assistants API(2023.11)。GPTs 确立了 Agent 的基本结构:你是谁、你知道什么、你能做什么。
泡沫:GPT Store。一个月 GitHub star 超 5 万,但本质是"提示词+知识库"套壳,没有工作流和数据飞轮。根本问题是开环控制——任务会迷失、烧账单、结果不可靠。
💡教训:工具 + 死循环 ≠ 生产级 Agent。
Gen2:工程化架构取代黑盒魔法(2023 末 ~ 2024)
行业转向:不再寄希望于一个提示词一蹴而就,而是规划→执行→观察→修正的结构化流程。
核心范式是 ReAct(Reasoning + Acting):Thought → Action → Observation 循环,每一步可审计。
Workflow 四大模式(WinR 总结):
| 模式 | 说明 | 类比 |
|---|---|---|
| Reflection | 先生成初稿,再评审修改 | 写稿→审稿→返修 |
| Tool Use | 主动调用搜索/DB/代码等 | 用工具 |
| Planning | 大目标拆成可执行步骤 | 项目管理 |
| Multi-Agent | 不同角色分工协作 | 程序员+QA |
长上下文 vs RAG 结论:不是谁替代谁,而是融合使用。
泡沫:LangChain(star 7 万+,但"三句代码能解决的事需要三层回调");低代码 Agent 平台(拖出来的工作流可被无成本复制,没有护城河)。
真正的降低门槛不是给模型穿一个复杂的图形界面,而是要解决复杂性本身。
Gen3:MCP + Computer Use + Coding Agent(2024Q4 ~ 2025)
三股力量汇聚:
MCP 协议
2025.11.25 Anthropic 发布 MCP。M×N 适配器 → M+N。到 2025 年末捐赠给 Linux 基金会,成为中立开放标准。工具连通从产品能力变成行业基础设施。
Computer Use
2024.10 Claude 3.5 Sonnet 推出——模型看截图,生成鼠标坐标和键盘指令。Agent 的行动空间从 API 世界扩展到人类可操作的所有软件世界。
Coding Agent
| 产品 | 路线 | 特点 |
|---|---|---|
| Cursor | GUI | VSCode 深度集成,视觉反馈直观 |
| Claude Code | CLI | 纯终端,原生 Shell,适合大型代码库 |
| Gemini CLI | 长上下文 | 上下文优势 |
Vibe Coding(2025.2):用自然语言写代码。但"代码能跑 ≠ 架构健康"。
教训: 感知鸿沟——开发者觉得快了 20%,实际完成时间反而慢 19%。Kiro 事故——AI Agent 删重建环境导致 AWS 13 小时中断。
Agent 越能行动,就越需要权限最小化、人工确认、审计日志和回滚机制。
Gen4:技能封装 + 常驻自治(2025 末 ~ 2026)
前三代是"任务触发型",第四代更像有身份、有记忆、有技能、有日程的常驻员工。
这里有三个质变:
| 质变 | 说明 | 意义 |
|---|---|---|
| Skill(技能封装) | 操作步骤+领域知识+约束+脚本打包成可复用单元 | 渐进式披露,按需加载 |
| Heartbeat(心跳) | Agent 按时间被系统唤醒,主动关注任务 | 从"用完即走"到"常驻数字实体" |
| 本地数据主权 | BYOK + 权限隔离 + 密钥管理 | Agent 越像员工,越要管好权限 |
风险放大:Markdown 即攻击面——恶意 Skill 可通过提示词注入改变 AI 行为(泄露密钥、读取密码库)。
Gen5 前瞻:闭环自治与具身化
四个方向:
- 三层闭环闭合: 执行闭环(自主验证→回滚)、时间闭环(跨唤醒周期追踪长期目标)、认知闭环(区分确定/不确定/过期/猜测)
- 内在记忆: 从外部 RAG/文件走向模型架构层面的跨会话持久状态
- 世界模型: “如果我这么做了,会怎么样?”——从反应式走向因果推理
- 具身化: Agent 终极疆域延伸到物理世界
六条底层规律
个人认为全视频中最值得收藏的部分:
| 规律 | 核心判断 | |
|---|---|---|
| 1 | 基座模型天花板是终极决定因素 | Agent 不是大模型之外的魔法,而是兑现其未释放的能量 |
| 2 | 工程化架构对模型暴力的系统性胜利 | Workflow 包裹的 GPT-3.5 可碾压无 harness 的 GPT-4 |
| 3 | 开放协议重塑价值分配 | MCP/Skills/AGENTS.md 会杀死一大批中间层 |
| 4 | 人机信任边界持续扩展 | Gen0 只读文本 → Gen4 无人监督 24h 常驻 |
| 5 | 灾难为下一代铸造铁律 | 技术标准是事故倒逼出来的 |
| 6 | 寒武纪大爆发→大灭绝循环 | 真正的护城河 = 垂直深度 + 数据飞轮 + 用户信任 |
💡一句话总结:每一次 Agent 范式创新,都是在兑现基座模型已经积累但尚未释放的能量余量。
参考来源
- 📺 B 站:B 站@Treap要赚一个亿U-Acc:[万字拆解 AI Agent 编年史]
- 📖 MCP 协议
- 📖 ReAct 论文
写在最后: 整理这篇 45 分钟视频的素材时用了Ai好记——直接把视频转写,自动生成大纲、总结、深度问答,给我提供了很多写作思路。从转写到成稿大概 1 小时,比自己边看边记快太多。有需求的同学可以试试!
更多推荐



所有评论(0)