大模型及其应用系列——智能体(AI Agent)
产业界和学术界通常把AI Agent翻译成“智能体”,而“agent(代理)"起源于哲学,指的是一种拥有欲望、信念、意图以及采取行动能力的实体。具有自主性、反应性、交互性等特征的智能“代理”。可以简单理解为你只需告诉Agent要完成的任务,Agent可以代替你去执行,最后把结果反馈给你。比如你只需告诉agent要订一张什么时间、去什么地方的机票,它会自动搜索、下单、支付完成订票的整个过程,中间无需
1、什么是智能体(AI Agent)
产业界和学术界通常把AI Agent翻译成“智能体”,而“agent(代理)"起源于哲学,指的是一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、反应性、交互性等特征的智能“代理”。 可以简单理解为你只需告诉Agent要完成的任务,Agent可以代替你去执行,最后把结果反馈给你。比如你只需告诉agent要订一张什么时间、去什么地方的机票,它会自动搜索、下单、支付完成订票的整个过程,中间无需个人干预。代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体,如机器人、代理程序等。首次提出”AI Agent“的是人工智能学者马文・明斯基(Marvin Minsky)。他在《思维的社会》一书中,把思维看作由大量相互作用的智能体(Agent)构成的复杂系统。每个智能体都执行特定的任务,并通过协作完成复杂的认知活动。例如在视觉感知中,可能存在专门负责识别边缘的智能体、识别颜色的智能体等,它们协同工作,使我们能够理解看到的图像。他认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是 Agent,且 Agent 应具有社会交互性和智能性。Agent 的概念由此被引入人工智能和计算机领域,并迅速成为研究热点。
2、智能体的框架和主要功能
OpenAI 的应用研究主管 Lilian Weng 提出了 “Agent=LLM + 规划 + 记忆 + 工具+行动”的基础架构,其中 LLM 扮演了 Agent 的 “大脑”,在这个系统中提供推理、规划等能力。
记忆:智能体具有短期记忆和长期记忆,用于存储和检索信息。
规划:智能体通过规划来决定如何实现目标,包括:
- 反射(Reflection)
- 自我反思(Self-Reflection)
- 思维链(Chain of Thought)
- 子目标拆解(Subgoal Decomposition)
工具:智能体可以自动调用各种工具,例如:
- 日程安排
- 电商下单
- 代码解释器
- 搜索
行动:智能体根据规划的结果采取行动
AI Agent功能主要包括感知、分析、决策和执行四大能力。首先是感知能力,通过传感器获取外部环境的信息,使AI Agent能够对周围的情况有所了解。其次是分析能力,通过对感知到的信息进行分析和处理,提取有用的特征和模式。然后是决策能力,AI Agent基于分析结果进行决策,制定相应的行动计划。最后是执行能力,将决策转化为具体的行动,实现任务的完成。这四大能力相互配合,使得AI Agent能够在复杂的环境中高效地运行和执行任务。比如,最近很火Manus,用户仅需告诉它你的需求,它便能自行搜索信息、思考问题并最终输出符合逻辑且质量优良的结果。Manus会学习用户的偏好,下次处理类似任务时将优先应用用户希望的结果展示或者根据用户的喜好帮助用户做出选择。这种自动化、智能化的处理方式无疑增加了工作效率。
AI Agent还可以根据Agent的行为对感知智能和能力的影响模式,分为不同类型,包括简单反射代理、基于模型的代理、基于目标的代理、基于效用的代理、学习代理和层次代理。这些代理可以根据其期望的结果或目标来确定决策和行动过程的最佳路径,从而实现特定的目的。
3、为什么需要智能体
大语言模型(LLM)主要侧重于对自然语言等数据理解和处理,虽然也能处理简单的对话和任务,但这种任务是交互式的,即通过提示词一步一步来回答问题比如你让 ChatGPT 买一杯咖啡,ChatGPT 给出的反馈一般类似 “无法购买咖啡,它只是一个文字 AI 助手” 之类的回答。但你要告知基于 ChatGPT 的 AI Agent 工具让它买一杯咖啡,它会首先拆解如何才能为你购买一杯咖啡并自动调用一系列下单以及支付等若干步骤,然后按照这些步骤调用 APP 选择外卖,再调用支付程序下单支付,过程无需人类去指定每一步操作。
另外,更擅长在多主体环境中进行交互和协作。多个 AI Agent 之间可以通过特定的通信协议和机制,进行信息共享、协商和协同工作,共同完成复杂的任务。在智能工厂中,不同的 AI Agent 可以分别负责生产调度、质量检测、设备维护等任务,它们之间相互协作,保障工厂的高效运行。
AI agent 在金融行业的应用表现为通过自动化完成繁琐的工作来改变金融专业工作流程。AI Agent可直接嵌入到工作流程中,可通过搜索网络、分析公开文件、与财务数据源集成以及利用语言大模型为上市和私营公司生成文件,通过专有数据集成以客户自定义格式自动生成报告。
AI Agent通过提供快速、个性化的响应来增强客户满意度,同时降低企业的运营成本。AI Agent的多语言能力和全天候服务提升了客户的互动体验。此外,通过精准的数据收集与分析,AI Agent帮助企业洞察市场趋势,优化产品与服务,制定更有效的市场策略。
4、国内外主要智能体厂商和产品
中国当下的AI Agent市场已经迎来丰富的参与者,包括互联网大厂类、生成AI类、企服SaaS类、创业类、3C类等多类型企业。这些企业依据自身技术或行业know-how迅速切入市场,通过先手占据更好的生态占位;并且越来越多的企业正在进行产品打磨与场景探索。
字节跳动(COZE)。扣子Coze是字节跳动新一代的AI Bot 开发平台,适用于快速、低门槛搭建专属于个人的Chatbot,并一键发布到豆包、飞书、微信等各个渠道。
阿里云(钉钉)。2024年4 月18 日,钉钉正式上线AI 助理市场(AI Agent Store)。首批上架了200 +AI 助理,通过Agent Store 的这种创新模式可以显著降低创作门槛并吸引更多用户,各行各业的人都可以拥有自己专属的助理。
用友大易。用友大易成立于2007年,是用友集团旗下成员企业。TRM.AI2.0是国内首家基于企业服务大模型的智能招聘系统,运用先进的AI技术,帮助企业建立精细化的人才招聘与运营体系。
Manus:全球首款通用型 AI Agent 产品,以 “手脑并用” 为核心,通过规划、验证与执行闭环,能够独立完成简历筛选、房产遴选等复杂任务。
智谱 AI:推出自主智能体 AutoGLM,基于智谱 AI 的大模型等技术,能完成多种复杂任务,可根据用户需求进行文本创作、知识问答、任务规划等,推动了国产 AI 智能体的发展。
昆仑万维:发布了 “天工 SkyAgents” 平台,用户无需代码编程,通过自然语言和简单操作,几分钟内就可部署属于自己的 AI Agents,可完成行业研究报告、健身计划制定、旅行航班预定等私人定制需求。
Microsoft。微软推出的企业级AI助手Microsoft 365 Copilot Chat,支持AI Agent功能,能够自动化处理日常办公任务,如文档编辑、会议安排等。其Copilot Studio平台已建立全球最大的企业级AI Agent生态系统,超过10万家企业使用。
Claude 3.5 Sonnet。在医药研发中展现强大能力,支持数据分析和决策辅助。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)