从零到手搓一个Agent：AI Agents新手入门精通（一）

chatgpt是Agent还是LLM，有了LLM为什么还需要Agent呢，这次我们就把概念弄清楚以及有什么用讲清楚

人工智能小豪

1344人浏览 · 2025-01-24 09:15:00

人工智能小豪 · 2025-01-24 09:15:00 发布

这一天，你的女朋友问你（假设我们有女朋友），宝宝，什么是Agent啊，Agent和LLM有什么区别呀，最近大家都在说的Agent究竟是什么，包括很多文章都在写的Agent，还有之前谷歌发布的Agents白皮书究竟是什么，对我们有什么帮助，对我们有什么影响呢？现在，编者专门做了一个系列，从最简单的讲起，解开这个迷雾，这个系列的教程，会帮助你了解基本概念，并且能够手搓一系列的agent

那么，chatgpt是Agent还是LLM，有了LLM为什么还需要Agent呢，这次我们就把概念弄清楚以及有什么用讲清楚

一、LLMs的局限与Agents的诞生（结合ChatGPT举例）

你或许已经体验过 ChatGPT 的强大对话能力，它能流畅地与你聊天、回答问题，甚至帮你写诗、写代码。这背后正是 LLMs（大型语言模型）在发挥作用。LLMs 就像一个超级博览群书的“大脑”，它掌握了海量的文本知识，可以根据你的提问，生成相应的文本回复

那么，为什么说 LLMs 仍然存在局限性呢？让我们以 ChatGPT 为例来看：

1. 知识的滞后性：

举例： 你问 ChatGPT “今天的天气怎么样？” 或者 “最新的股票价格是多少？”，它很可能无法给出准确的回答。因为它所拥有的知识来源于训练时的数据，无法实时获取最新的信息。它可能告诉你的是前几天的天气，或者很久之前的股票行情。

解释： LLMs 的知识就像一本厚厚的“旧书”，书里记载着很多知识，但无法知道书出版之后发生的新鲜事。

2. 无法与外界交互：

举例： 你让 ChatGPT “帮我预订一张明天的机票”，它会很热情地告诉你预订机票需要哪些步骤，却无法实际帮你预订。你让它 “帮我发送一封邮件给同事”，它也只能为你写好邮件内容，而不能帮你发送出去。

解释： LLMs 只能进行文本理解和生成，它就像一个“只会说”的人，但没有“手脚”去执行实际操作。

3. 缺乏自主行动能力：

举例：你问 ChatGPT “如何制定一个完美的旅行计划”，它会给出你很多建议，例如选择目的地、预订酒店、规划行程等等。但是它不会主动帮你把这些都安排好。它只是在回答你的问题，而不是主动帮你解决问题。

解释： LLMs 只能被动地接收指令，然后给出回答，无法根据目标自主规划行动。就像一个“听话的助手”，但是没有自己的想法和主动性。

二、为了突破这些限制，Agents（智能体）应运而生。

Agents 的核心思想：给 LLMs 配备“手脚”和“大脑”

我们可以将 Agents 想象成一个升级版的 ChatGPT，它不仅具备强大的语言理解和生成能力，还拥有了：

“手脚”（工具）： Agents 可以利用各种工具（例如，搜索引擎、数据库查询工具、邮件发送工具）与外界互动，获取信息、执行操作。就像给 LLMs 配备了可以操作各种工具的 “手脚”。

“大脑”（编排层）： Agents 具备推理和规划能力，可以根据目标自主规划行动，并合理地调用各种工具。就像给 LLMs 配备了一个可以自主思考和决策的“大脑”。

Agents 与 LLMs 的区别：

|
特性

LLMs (例如 ChatGPT)

Agents (智能体)

|
| — | — | — |
|

核心能力

语言理解和生成

语言理解、推理规划、工具使用、自主行动

|
|

知识来源

训练数据

训练数据 + 实时信息 + 外部知识库

|
|

与外界交互

无法直接交互

可以通过工具与外界交互

|
|

行动能力

无法执行实际操作

可以根据目标自主执行操作

|
|

解决问题方式

被动回答问题

主动分析问题、规划行动、解决问题

|
|

例如

ChatGPT 可以回答你的问题，但无法帮你订机票或查询天气

Agent 可以帮你预订机票、查询天气、发送邮件，并根据你的需求主动规划行程

简而言之：

* LLMs 就像一个知识渊博的“问答机器人”，你问什么，它答什么。

* Agents 就像一个“智能助手”，它不仅能回答你的问题，还能主动帮你完成任务。

通过这样的解释，希望能够帮助读者更好地理解 LLMs 的局限性，以及 Agents 的优势和价值。Agents 的出现，标志着人工智能正朝着更智能、更强大的方向发展。

知识的局限性： LLMs的知识来源于训练数据，无法获取实时的外部信息，这使得它在处理需要最新资讯的任务时显得力不从心。
行动的局限性： LLMs只能进行文本生成和理解，无法与外部环境交互，更无法执行实际操作，例如查询数据库或发送邮件。

为了克服这些局限，谷歌的研究人员在《New whitepaper Agents》中详细阐述了“Agent”的概念。他们将LLMs与工具和编排层相结合，赋予了LLMs自主行动的能力，使其能够像一个真正的“智能体”一样工作。

学到这了，奖励自己一下，放松一下眼睛

三、Agents的核心组件：智能体的“三大支柱”

一个完整的Agent通常由三个核心组件构成，它们相互协作，共同支撑起Agent的智能行为：

模型 (Model): Agent 的“大脑”
1. 角色：负责理解用户输入、进行推理和规划，并选择合适的工具执行任务。
2. 类型： ReAct、Chain-of-Thought、Tree-of-Thought等模型，提供了不同的推理框架，帮助Agent进行多轮交互和决策。
3. 重要性：模型是Agent的核心，其推理能力直接决定了Agent的行动效率和准确性。
工具 (Tools): Agent 与外界交互的“桥梁”
1. 角色：允许Agent访问外部数据和服务，执行各种任务。
2. 类型：可以是各种API，例如数据库查询、搜索引擎、代码执行器、邮件发送器等。
3. 重要性：工具极大地扩展了Agent的能力，使其能够处理更复杂的任务。
编排层 (Orchestration Layer): Agent 的“指挥中心”
1. 角色：负责管理Agent的内部状态，协调模型和工具的使用，并根据目标指导Agent的行动。
2. 类型：可以使用各种推理框架，如ReAct和Chain-of-Thought等，协助Agent进行规划和决策。
3. 重要性：编排层是Agent的“指挥中心”，确保各个组件协同工作，最终实现预定目标。

四、Agents的运作机制：从输入到输出

Agent 的运作流程可以概括为以下几个步骤：

接收输入：接收用户的指令或问题。
理解输入：模型理解用户的意图，并提取关键信息。
推理规划：模型根据用户输入和当前状态，进行推理和规划，确定下一步行动。
选择工具：模型根据目标选择合适的工具。
执行行动： Agent使用工具执行行动，例如查询数据库、发送邮件等。
获取结果： Agent获取工具执行的结果。
输出结果： Agent将结果输出给用户，或进行下一步行动。

相较于传统的LLMs，Agents 具备以下显著优势：

知识扩展：通过工具，Agent可以访问实时信息和外部知识库，突破了训练数据的限制，提供更准确和可靠的信息。
自主行动： Agent 可以根据目标自主决策和行动，无需人工干预，大大提高了效率和灵活性。
多轮交互： Agent 可以管理对话历史和上下文，进行多轮交互，提供更自然和流畅的用户体验。
可扩展性： Agent 可以通过添加新的工具和模型，不断扩展其功能和应用范围。

五、Agents的应用：从智能客服到虚拟助手

Agents 的应用场景非常广泛，以下仅列举部分：

智能客服：自动回答用户问题、处理订单、解决客户问题。
个性化推荐：根据用户兴趣和行为，推荐商品、内容、服务等。
虚拟助手：帮助用户管理日程、预订行程、发送邮件等。
代码生成：根据用户需求，自动生成代码。
智能创作：创作诗歌、小说、剧本等。
知识图谱构建：从文本中提取知识，构建知识图谱。

Agents的开发工具：从LangChain到Vertex AI

为了方便开发者构建 Agents，Google 提供了多种工具和平台：

LangChain：一个开源库，方便开发者将LLMs与工具和编排层结合，构建功能强大的Agents。
LangGraph：一个开源库，帮助开发者构建和可视化 Agents，提供图形化界面，方便设计和测试。
Vertex AI：一个云平台，提供各种AI工具和服务，如Vertex Agent Builder、Vertex Extensions、Vertex Function Calling等，帮助开发者快速构建和部署 Agents。

Agents 的未来充满无限可能，技术发展将推动 Agents 走向更智能化和强大：

更先进的模型：更强大的语言模型将带来更复杂的推理和规划能力。
更丰富的工具：更多种类的工具将为 Agent 提供更丰富的交互方式，例如自然语言处理、图像识别、语音识别和机器人控制等。
更智能的编排层：更智能的编排层将更好地协调模型和工具，提高 Agent 的效率和灵活性。
Agent Chaining：更多专业化的 Agents 将协同工作，解决更复杂的问题。
多模态交互： Agent 将能够处理多种模态数据，如文本、图像和语音，带来更丰富的用户体验。
人机协作： Agent 将与人类更紧密地合作，共同完成更复杂的任务。

六、结语：Agent，AI的未来

Agents 代表着生成式AI模型的进阶形态，它们拥有自主行动能力，能够利用工具与外界交互，并根据目标进行决策，具有更广泛的应用范围和更强大的能力。随着技术的不断发展，Agents 将会改变我们的生活和工作方式，并推动人工智能进入新的发展阶段。未来，Agent 将成为人工智能发展的重要方向，为我们带来更智能、更便捷的未来。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望