一文读懂火爆的AI Agent（智能体）

业界对AI agent的定义各不相同，更广泛被使用的一种定义是：一种能够感知环境、进行决策和执行动作的智能实体。而站在软件工程的角度看来，AI agent（智能体）是一种基于大语言模型（LLM）的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。我们再拆开这个词来帮助理解：“agent”中文意思是代理人，可以单纯理解为有人帮你去做某件事。那么，AI agent简单来

Python官方资料

1199人浏览 · 2024-12-12 17:34:26

Python官方资料 · 2024-12-12 17:34:26 发布

AI Agent以各种形态存在于我们生活的方方面面，大众比较熟知的有Siri、小爱同学等虚拟助手，但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

AI Agent的热潮始于2023年3月左右，彼时很大程度上得益于诸如GPT-4等大语言模型（LLMs）的突破性进展，再加上一些开源框架和工具的出现，如AutoGPT，进一步降低了开发AI Agent的技术门槛，使得开发者能够更容易地构建和部署自己的AI Agent。所以，AI Agent得以快速发展和应用。

比尔・盖茨曾表示

AI Agent是AI的未来，并预言不久的将来，所有人都将拥有自己专属的AI助理。

今天就让我们来看看，到底什么是AI agent？它的工作原理是什么？未来发展怎样？

到底什么是AI agent？

业界对AI agent的定义各不相同，更广泛被使用的一种定义是：一种能够感知环境、进行决策和执行动作的智能实体。而站在软件工程的角度看来，AI agent（智能体）是一种基于大语言模型（LLM）的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。

我们再拆开这个词来帮助理解：“agent”中文意思是代理人，可以单纯理解为有人帮你去做某件事。那么，AI agent简单来说，就是一个由AI技术加持的代理人，它变得更聪明了，可以感知周围的环境，并且能够独立地思考和行动。

举个简单例子，我们现在常用的一些聊天机器人文心一言、Kimi Chat等，需要一直告诉它要做什么，但是更聪明的AI agent不一样，我们只要给它一个目标，它就能想办法自动帮你完成。

比如，智能家居系统中的智能恒温器，可以通过传感器检测室内外的温度变化，还可以学习你的生活习惯和偏好——你通常什么时间段在家，在什么时间段你更倾向于较冷或较暖的环境，据此来自动调整加热或冷却计划，以确保室内温度保持在舒适的范围内。整个过程无需给它明确的指令。

相较于传统的、静态的人工智能，AI agent具有几个显著的特点：

自主性：AI Agent具有独立思考和行动的能力，能够在没有人类直接指导的情况下完成任务。

交互性：AI Agent能够与环境或其他Agent进行交互，这通常用于游戏、对话系统、推荐系统等场景。

目的性：AI Agent设计有明确的目标或意图，它们的行为是为了实现这些目标。

适应性：AI Agent能够根据环境的变化调整自己的行为，以适应新的情境。

进化性：随着技术的发展，AI Agent的功能和智能水平也在不断提升。

复旦大学自然语言处理团队在推出的LLM-based Agents 综述论文中，用一个例子来说明了LLM-based Agent的工作流程：当人类询问是否会下雨时，感知端（Perception） 将指令转换为 LLMs 可以理解的表示。然后控制端（Brain） 开始根据当前天气和互联网上的天气预报进行推理和行动规划。最后，行动端（Action） 做出响应并将雨伞递给人类。

不难看出，在以大语言模型（LLM）为基础的AI agent中，LLM充当agent大脑的角色，并与若干关键组件协作。

可以用一个公式概括AI Agent的主要组成部分：AI Agent = LLM（大语言模型推理能力）+ Planning（规划能力）+ Memory（记忆能力）+ Tools（使用工具能力）+ Action（行动能力）。

AI agent的工作原理

AI agent的工作原理主要包括四部分：感知、信息处理、执行、输出。

1.感知

感知是第一步，AI通过传感器、摄像头、麦克风这些外部设备（感知端）来感知周围的世界。

–任务理解: 当用户提出问题“是否会下雨”时，这句话会被麦克风捕捉到，它首先需要理解这个问题的意思以及背后的意图。

–指令转换: 感知端将用户的自然语言问题转换成LLM能够理解和处理的结构化形式或表示。

–输入数据准备: 感知端还可能需要收集相关的外部信息，例如当前位置、日期和时间等，以便LLM能够获取最新的天气数据。

2. 信息处理

–知识获取： 控制端（Brain）开始利用大型语言模型（LLMs）的能力，从互联网上检索相关的天气预报信息，包括当前天气状况、未来预测等。

–推理与规划： LLMs根据收集到的信息进行推理，确定是否有可能下雨，并基于这种可能性制定行动计划。

–决策： 如果预测显示有较高的降雨概率，则决定应该提醒用户带雨伞；反之，则建议无需携带雨伞。

3. 执行

–行动规划： 在确定了行动计划后，执行端（Action）开始规划如何实施这一计划，例如通过物理动作或者通过发送通知的形式。

–资源调度： 如果Agent有能力直接采取物理行动，比如机器人手臂，那么它需要调动相应的硬件资源来完成任务。

–执行动作： 执行端根据规划执行具体的动作，如移动到雨伞存放的位置并拿起雨伞递给用户。

4. 输出

–响应生成： 执行端生成一个明确的响应，告诉用户是否会下雨，并给出相应的建议或行动；

–用户交互： 如果是通过对话形式，那么Agent会告知用户预测结果，并提醒用户是否需要带伞；

–完成任务： 最终，Agent将雨伞递给用户，完成任务。

所以，一个完整的AI Agent（智能体），好比人类和周围环境互动的过程，它由两部分组成：一部分是智能体自己，另一部分是它所在的环境。

AI agent未来发展

目前Agent技术还不是完全成熟，发展也面临一些瓶颈，比如：

技术方面，LLM模型仍然不够强大，即使是用很强大的GPT4在AI Agent应用时，仍然面临上下文容量有限，限制了历史信息、详细说明、API 调用上下文和响应；长期规划和有效探索解决方案空间仍然具有挑战性。另外，在遇到意外错误时LLM很难调整计划，这使得它们与人类相比（从试错中学习）不太稳健等。

其次，就是成本太高了，尤其是多智能体，因为其需要记忆和行动的思考量非常大。

还有就是现阶段在很多场景，使用AI Agent还看不到非常大的提升，或者说能覆盖增加成本的提升。

可以说，现阶段大部分AI Agent技术/平台还都处于研究阶段，现在一些比较固定的工作流程，或者有详细标准SOP的程序，都在封闭环境下进行。

但是随着大模型的百花齐放，LLM 会支持更长的上下文、更大的参数规模，其推理能力也会愈发强大。因此，基于大模型搭建的AI Agent（智能体）的能力边界也在不断突破。相信在未来，AI Agent可以被应用于广泛的领域，成为各个行业的基础支撑。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：