
AI智能体下一步,模拟人机交互,所有人的工作流将被改变
不过一个比较常见的观点是,AI智能体是一个更加先进的AI工具,它能够感知周围环境,模拟人类思考与工作,可以独立做出决策,执行步骤繁多且复杂的特定任务。而且能够从反馈中进行学习,同时还可以和其他的软件或者是AI工具进行连接和交互。就像是职场工作当中,
完全释放AI生产力还需要时间。
年初开始,当前关于AI的焦点正在从chat bot,迅速转向AI agent。
(PS:chat bot也就是智能助理,比如ChatGPT,这些都是聊天机器人。
AI agent,AI代理,在国内主要称之为AI智能体。)
目前几乎所有的AI智能体都是基于大模型运作的。
之前频频出圈的 Devin,被称为“第一位由 AI 担任的软件工程师”,它可以自主的去学会如何使用不熟悉的技术,自主的生成代码、调试bug和部署应用。Devin就是一个典型的AI智能体。
Agent 既可以替代现有的很多软件工具,也可以替代我们去完成工作中繁琐的任务。比如写文案、编短剧、设计图、做视频、码代码等。
OpenAI、微软、meta还有谷歌等等科技巨头都在竞相研究和开发相关的产品。
OpenAI宣称将会在明年1月推出一款能够帮助人类编写代码或者是预定旅游计划的AI智能体。
上月OpenAI的竞争对手anthropic也宣布,他们对Claude 3.5 Sonnet 的模型进行全面改进之后,推出了一个像人类一样操控电脑的AI智能体。通过观看屏幕截图,实现移动光标、点击按钮、使用虚拟键盘输入文本等,进行数十个甚至是数百个步骤来完成特定的任务,真正模拟人类与计算机交互的方式。
今年9月开始,微软悄悄组建起世界最大的AI智能体生态系统,目前已经有包括麦肯锡等超过10万家公司,用Copilot Studio创建了自己的AI智能体。比起聊天机器人那样等待被提问,copilot理能够像虚拟员工一样自动执行任务,比如监控、电子邮件、收件箱等等。随后微软又发布了多款面向企业的AI智能体产品。
google也在研发一个叫做Jarvis的AI智能体项目。将会在chrome浏览器当中运行,通过屏幕截图来分析内容,自动点击按钮或者输入文本等模拟人工操作,比如搜索资料或者网购。
据风投统计机构pitch book的数据显示,过去一年时间里,AI智能体领域的初创公司获得的总投资金额同比增长超过80%,涉及的交易数量也达到了156笔,其中包括可以用于法律行业和处理税务工作的不同功能的AI智能体。
国内外部分智能体平台⬇️(更新)
https://larkcommunity.feishu.cn/share/base/view/shrcnm2JZU0xrErHDB0SqsWHgFg
AI智能体究竟是什么?
Agent 的起源
据大聪明考据,Agent 大概起源于2023 年 2-3 月,标志性事件包括:
-
AutoGPT 、GPT-Engineer、Langchain等基于自然语言的开源 AI 自动化框架:告诉 AI 一个任务, AI 就会通过自然语言的自我对话,将这个任务进行拆分、规划并实现。
-
类似ChemCrow、斯坦福小镇的项目实践:给予不同的 Bot 以不同的人格,搭配记忆窗口,让程序间相互对话。
-
发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》,以及 OpenAI 在 3 月底发布的插件计划:这意味着,大模型从原来的“思想家”,通过对外部工具的使用,变成了“实干家”。
目前Agent研究还处于早期阶段,在AI智能体的确切定义上,科技行业目前还没有达成共识。
不过一个比较常见的观点是,AI智能体是一个更加先进的AI工具,它能够感知周围环境,模拟人类思考与工作,可以独立做出决策,执行步骤繁多且复杂的特定任务。而且能够从反馈中进行学习,同时还可以和其他的软件或者是AI工具进行连接和交互。就像是职场工作当中,简单的工作单独处理,专业问题专家处理,复杂问题协同处理。
AI智能体的未来愿景是成为人类的助手。比如当你想要外出度假的时候,只需要向AI智能体发出一个我想要在某个时间去某个地方度假的指令,它就会自动根据你日常的衣食住行偏好和日程,帮你选出时间最合适的航班价格、最中意的酒店来给你行程规划。
AI Agent的意义在于其能够提高效率、降低成本、增强用户体验,并在某些情况下提供超越人类能力的决策支持。
AI Agent的应用领域:
-
客户服务(Customer Service):自动回答客户咨询,提供个性化服务。
-
医疗诊断(Medical Diagnosis):辅助医生进行疾病诊断和治疗方案推荐。
-
智能交通(Intelligent Transportation):自动驾驶车辆和交通管理系统。
-
教育辅导(Educational Tutoring):个性化学习助手,根据学生的学习进度提供辅导。
-
游戏与娱乐产业(Game &Play):内容创作和玩家互动,如NPC的行为和决策。
Agent的决策流程:PPMA模型
AI Agent的决策流程可以精简为三个基本步骤:感知(Perception)、规划(Planning)、记忆(Memory)和行动(Action),简称为PPMA模型,是Agent智能行为的骨架,支撑着其与环境的交互和自主决策。
感知(Perception):Agent通过感知系统从环境中收集信息,这些信息可以是文本、图像、声音等多种形式。感知是Agent理解周遭世界的第一条件。例子:在自动驾驶车辆中,感知系统可能包括雷达、摄像头和传感器,它们持续监测周围环境,识别交通标志、行人和其他车辆。
规划(Planning):在收集到信息后,Agent需要一个规划系统来确定如何达到目标。这个过程涉及到决策制定,将复杂任务分解为可执行的子任务。
例子:一个项目管理AI Agent,根据项目截止日期和资源分配,创建任务列表和时间表,为团队成员分配具体工作。
记忆(Memory):分为感觉记忆、短期和长期记忆。记忆系统允许Agent获取、存储和检索信息,支持学习和长期知识积累,为Agent提供信息存储和检索的能力。
-
感觉记忆作为原始输入的嵌入表示,包括文本、图像或其他模态;
-
短期记忆就像是上下文学习。它是短且有限的,因为它受到 Transformer 有限上下文窗口长度的限制。
-
长期记忆作为Agents在查询时可以处理的外部向量存储,可通过快速检索进行访问。
例子:
短期记忆:一个在线客服AI,在对话中记住用户的问题和偏好,以提供即时的个性化服务。
长期记忆:一个科研AI Agent,存储先前研究的数据和结果,在新项目中利用这些信息加速发现过程
行动(Action):最后Agent根据规划的结果执行行动。这些行动可能是物理的,如机器人的移动,也可能是虚拟的,如软件系统的数据处理。
由于AI还没有成为具身智能的机器人,所以一般指的是工具使用(Tools Use),Agent利用外部资源或工具来增强其感知、决策和行动能力。这些工具可以是API、软件库、硬件设备或其他服务。
例子:一个数据分析AI Agent,使用外部API获取实时股市数据,或调用大模型API进行预测分析。
正如人类通过感知来理解世界,在一个理想的AI Agent架构中,Agent与环境的交互是双向的、动态的,并且是连续的,就像人与真实世界的互动一样,只是通过一系列传感器、数据输入或其他方式获得信息。最终AI Agent利用这些感知数据,以支持复杂的Planning、决策和行动。
为什么我们不用一个单独强大的AI,而要用到智能体?
AI智能体和AI聊天机器人区别
我们告诉 AI 写代码并在第一次尝试时运行它。如果你使用 GPT-3.5 0 prompt,它的正确率是 48%。
GPT-4 做得更好,正确率达到了 67.7%,但如果你围绕 GPT-3.5 使用一个 Agent 工作流程,实际上它的表现甚至比 GPT-4 还要好。如果你将这种类型的工作流程应用于 GPT-4,它也表现得非常好。你会注意到,GPT-3.5 与一个 Agent 工作流程相结合实际上超过了 GPT-4 的表现。
GPT-4工作得很好,但今天的使用场景仍然有限。而围绕Agent 搭建工作流程,可能比一个单独的模型带给我们更多惊喜。
特点一,能够执行复杂任务。
**AI聊天机器人一次只能回答某个具体的问题,AI智能体还可以完成一系列更加复杂的任务。**比如作为客服,包括分析客户投诉邮件,访问数据库,查看投诉是否合法,并且根据公司政策进行处理等等。AI智能体比AI聊天机器人的显著提升点在于它能够在AI大模型的基础上进行定制化的开发。
特点二,在无无监督的情况下自主执行任务。
一个玩笑的说法是,聊天机器人会冷暴力我们。我们必须得不断的发出指令,机器人才可以持续的回答问题。而AI智能体可以在很少甚至是没有人类指导和监督的情况下,自动执行多步骤和复杂的任务。比如今年夏天软件服务公司salesforce推出了一款名字叫做agent force的AI智能体。他们表示这款产品不仅可以对业务线索进行资格预审,还可以代表销售人员联系潜在客户并且安排会议。
特点三,能够使用工具。
AI智能体能在动态环境中灵活调整策略,并且独立地做出决策,这使得他们更像是一个全能的个人助理。
AI智能体具备规划能力,能够使用网络搜索、编程等等工具达成目的。比如说在AI智能体研究某个主题并且要编写一份报告的过程当中,如果出现了因为技术错误无法访问特定网络搜索应用的突发情况,AI智能体是可以灵活的转去其他的搜索工具获取信息并且完成任务的。
Agent 有哪些类型
吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式:
-
复盘 Reflection:让 Agent 审视和修正自己生成的输出;
我们并不能总是可靠地让AI工作,比起我们自己一行行的对比查询验证,你只需要写一个审查的 Agent ,就会很快获得生产力的提升。
更进一步,你可以有两个 Agent ,其中一个是代码 Agent ,另一个是批评 Agent 。这些可以是相同大模型 ,但也不同的方式进行提示。我们对一个说,你是专家级的代码撰写者。对另一个说,你是专家级的代码审查者,审查这段代码。
-
工具调用 Tool Use:LLM 生成代码、调用 API 等进行实际操作;
在多模态模型出现之前,大模型普遍只能处理文字,并不能直接处理图像,所以唯一的选择是生成一个可以操纵图像的函数调用。很有趣的是,很多在使用方面的工作似乎都起源于视觉领域,因为在 GPT-4 等出现之前, LLM 对图像是盲目的,这就是使用工具,扩展了 LLM 可以做的事情。
-
任务规划 Planning:让 Agent 分解复杂任务并按计划执行;
这是一个从 HuggingGPT 论文中改编的例子,你说,请生成一张图片,图片中的女孩在读书,而且与图像example.jpg中的男孩姿势相同,请用语音描述新图像。所以给出这样一个例子,今天有 AI Agent ,你可以决定首先需要做的是确定男孩的姿势。然后,找到正确的模型,可能在 HuggingFace 上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片,遵循指令。然后使用图像检测,最后使用文本到语音。
我们通过让AI实施一些行之有效的SOP来完成工作,等待一段时间,或许会有新的东西。
- 工作流 Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务;
ChatDev 是一个多 Agent 系统的示例,你可以提示一个 LLM 有时表现得像软件工程公司的 CEO,有时像设计师,有时像产品经理,有时像测试人员。
通过提示 LLM 告诉它现在你是 CEO,现在你是软件工程师,它们合作,进行扩展的对话,以至于如果你告诉它,请开发一个游戏,开发一个多人游戏,它们实际上会花费几分钟编写代码,测试它,迭代它,并最终生成一个出人意料的复杂程序。
Agent 之间的合作能够带来更加丰富和多样的输入,而且因为它能够模拟出一个更加接近真实工作环境的场景,其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让 LLM 不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。
这种方法的潜在价值巨大,因为它为自动化和提升工作流程的效率提供了新的可能性。例如,通过模拟一个软件开发团队的不同角色,一个企业可以自动化某些开发任务,从而加快项目的进度并减少错误。同样,这种多 Agent 合作方式也可以应用于其他领域,如内容创作、教育和培训、以及策略规划等,进一步拓宽 LLM 在各个行业的应用范围。
通过 Agent Reflection、规划与多 Agent 合作等设计模式,我们不仅能够提升 LLM 的性能,还能够拓展它们的应用领域,使它们成为更加强大和灵活的工具。随着这些技术的不断发展和完善,我们期待着未来 AI Agent 能够在更多的场景中发挥关键作用,为人们带来更加智能和高效的解决方案。
那么现阶段的AI智能体还有哪些尚未解决的问题呢?
问题一,可靠性不足。
目前的AI智能体能够完成一些任务,但是并不可靠,正确率仍然远低于人类。比如说AI智能体可以生成代码,但是他们却并不知道该如何测试他们正在编写的代码,以及产生幻觉或者是分心。
与此同时,许多用户也并没有办法完全信任AI智能体,让AI智能体搜集资料是可行的,但让wan quan1负责撰写稿件是另外一回事。
问题二,跨平台和多模态能力有待完善。
我们缺乏一个跨平台的身份认证。
李开复在潜望的采访提到,智能助手应该是跨平台的,它可以和任何平台、任何地方的智能助手或智能体连接;
但目前国内大部分应用并没有提供API接口,提供了访问功能也有限,导致AI智能体无法接入,获取各种类型的信息,完成跨平台服务。甚至很多只有APP端没有网页端,这导致大部分生成式AI产品,只能在自己的网站或者是应用上来提供服务。
比如说你在ChatGPT的网站上聊天,让它生成旅行的建议,ChatGPT就会给你规划路线,建议游玩的景点,但是不能帮你预定门票和酒店。想要让AI像一个个人助理一样,就需要AI接入票务网站、酒店还有机票官网等等不同的平台。
另外还有一些系统,尽管说提供了接口,但是由于标准不够统一,可能会花费大量的时间和精力去做适配。
AI智能体在跨系统的过程当中,会遇到各种各样的难题,这也是为什么google们的AI智能体在尽可能的图片识别能力,通过屏幕的截图来访问不同的软件和网站。但是当下AI识别图片信息的成本要远远高于文字。以OpenAI为例,处理同样信息量的文字和图片,图片的成本是文字的几十倍甚至是上百倍。如果AI需要实时监控电脑屏幕的变化,那么消耗的成本还会进一步的上升。
接着就是,一个时时监控你屏幕的AI智能体,你一定不放心它的隐私与安全问题。不论是智能助手还是智能体,互相之间的连接与通信应该是安全的,最好是端到端加密的。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)