摘要: 本文梳理 AI Agent 从 2022 年末到 2026 年初的四代演变 + 第五代前瞻,覆盖每一代的核心突破、代表产品、泡沫教训。


目录


Gen0:被困在对话框里的大脑(2022 末 ~ 2023 初)

2022.11.30 ChatGPT 发布,生成式 AI 第一次走向大众。但 Gen0 有两个致命缺陷:数据滞后+幻觉(不知道实时信息,不知道就说"编一个")、没有行动能力(能写代码但不能跑,能规划旅行但不能订票)。

泡沫:提示词工程师。当时流行"年薪百万的提示词工程师"“PromptBase 提示词市场”,但不到一年就被 GPT-4 的指令理解能力和 System Prompt 吞噬。

💡 个人认为:这是全程反复出现的剧本——新能力出现 → 大量低门槛产品涌入 → 下一代基础设施内化这项能力 → 中间层系统性蒸发。 提示词工程师只是第一次。


Gen1:工具调用觉醒(2023 年中 ~ 末)

拐点: 2023.6.13 OpenAI 发布 Function Calling。模型输出结构化 JSON 而非自然语言,大脑+四肢的架构第一次成为现实。

同期崛起的 RAG + 向量数据库(Pinecone、Milvus、LlamaIndex)解决了知识滞后问题——给模型外挂一个检索型外部记忆。

定制化三部曲:ChatGPT Plugins(2023.3)→ Custom Instructions(2023.8)→ GPTs + Assistants API(2023.11)。GPTs 确立了 Agent 的基本结构:你是谁、你知道什么、你能做什么。

泡沫:GPT Store。一个月 GitHub star 超 5 万,但本质是"提示词+知识库"套壳,没有工作流和数据飞轮。根本问题是开环控制——任务会迷失、烧账单、结果不可靠。

💡教训:工具 + 死循环 ≠ 生产级 Agent。


Gen2:工程化架构取代黑盒魔法(2023 末 ~ 2024)

行业转向:不再寄希望于一个提示词一蹴而就,而是规划→执行→观察→修正的结构化流程。

核心范式是 ReAct(Reasoning + Acting):Thought → Action → Observation 循环,每一步可审计。

Workflow 四大模式(WinR 总结):

模式 说明 类比
Reflection 先生成初稿,再评审修改 写稿→审稿→返修
Tool Use 主动调用搜索/DB/代码等 用工具
Planning 大目标拆成可执行步骤 项目管理
Multi-Agent 不同角色分工协作 程序员+QA

长上下文 vs RAG 结论:不是谁替代谁,而是融合使用。

泡沫:LangChain(star 7 万+,但"三句代码能解决的事需要三层回调");低代码 Agent 平台(拖出来的工作流可被无成本复制,没有护城河)。

真正的降低门槛不是给模型穿一个复杂的图形界面,而是要解决复杂性本身


Gen3:MCP + Computer Use + Coding Agent(2024Q4 ~ 2025)

三股力量汇聚:

MCP 协议

2025.11.25 Anthropic 发布 MCP。M×N 适配器 → M+N。到 2025 年末捐赠给 Linux 基金会,成为中立开放标准。工具连通从产品能力变成行业基础设施。

Computer Use

2024.10 Claude 3.5 Sonnet 推出——模型看截图,生成鼠标坐标和键盘指令。Agent 的行动空间从 API 世界扩展到人类可操作的所有软件世界

Coding Agent

产品 路线 特点
Cursor GUI VSCode 深度集成,视觉反馈直观
Claude Code CLI 纯终端,原生 Shell,适合大型代码库
Gemini CLI 长上下文 上下文优势

Vibe Coding(2025.2):用自然语言写代码。但"代码能跑 ≠ 架构健康"。

教训: 感知鸿沟——开发者觉得快了 20%,实际完成时间反而慢 19%。Kiro 事故——AI Agent 删重建环境导致 AWS 13 小时中断。

Agent 越能行动,就越需要权限最小化、人工确认、审计日志和回滚机制。


Gen4:技能封装 + 常驻自治(2025 末 ~ 2026)

前三代是"任务触发型",第四代更像有身份、有记忆、有技能、有日程的常驻员工

这里有三个质变:

质变 说明 意义
Skill(技能封装) 操作步骤+领域知识+约束+脚本打包成可复用单元 渐进式披露,按需加载
Heartbeat(心跳) Agent 按时间被系统唤醒,主动关注任务 从"用完即走"到"常驻数字实体"
本地数据主权 BYOK + 权限隔离 + 密钥管理 Agent 越像员工,越要管好权限

风险放大:Markdown 即攻击面——恶意 Skill 可通过提示词注入改变 AI 行为(泄露密钥、读取密码库)。


Gen5 前瞻:闭环自治与具身化

四个方向:

  1. 三层闭环闭合: 执行闭环(自主验证→回滚)、时间闭环(跨唤醒周期追踪长期目标)、认知闭环(区分确定/不确定/过期/猜测)
  2. 内在记忆: 从外部 RAG/文件走向模型架构层面的跨会话持久状态
  3. 世界模型: “如果我这么做了,会怎么样?”——从反应式走向因果推理
  4. 具身化: Agent 终极疆域延伸到物理世界

六条底层规律

个人认为全视频中最值得收藏的部分:

规律 核心判断
1 基座模型天花板是终极决定因素 Agent 不是大模型之外的魔法,而是兑现其未释放的能量
2 工程化架构对模型暴力的系统性胜利 Workflow 包裹的 GPT-3.5 可碾压无 harness 的 GPT-4
3 开放协议重塑价值分配 MCP/Skills/AGENTS.md 会杀死一大批中间层
4 人机信任边界持续扩展 Gen0 只读文本 → Gen4 无人监督 24h 常驻
5 灾难为下一代铸造铁律 技术标准是事故倒逼出来的
6 寒武纪大爆发→大灭绝循环 真正的护城河 = 垂直深度 + 数据飞轮 + 用户信任

💡一句话总结:每一次 Agent 范式创新,都是在兑现基座模型已经积累但尚未释放的能量余量。


参考来源

  • 📺 B 站:B 站@Treap要赚一个亿U-Acc:[万字拆解 AI Agent 编年史]
  • 📖 MCP 协议
  • 📖 ReAct 论文

写在最后: 整理这篇 45 分钟视频的素材时用了Ai好记——直接把视频转写,自动生成大纲、总结、深度问答,给我提供了很多写作思路。从转写到成稿大概 1 小时,比自己边看边记快太多。有需求的同学可以试试!
在这里插入图片描述

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐