在当今科技飞速发展的时代,“智能体” 这个词汇逐渐进入大众视野,成为人们热议的焦点。那么,究竟什么是智能体呢?

智能体,英文名为 AI Agent,是一种模仿人类智能行为的系统 ,它就像是拥有丰富经验和知识的 “智慧大脑”,能够感知所处的环境,并依据感知结果,自主地进行规划、决策,进而采取行动以达成特定目标 。简单来说,智能体能够根据外部输入做出决策,并通过与环境的互动,不断优化自身行为。

一、智能体**=大模型+规划+记忆+**工具。

从构成核心来看,智能体以大模型为基础,并通过主动学习或获取知识来持续提升自身能力。可以说,智能体 = 大模型 + 规划 + 记忆 + 工具。伴随着大语言模型(LLM)性能的迅速迭代,智能体市场也呈现出急速膨胀的态势。2023 年,全球智能体市场规模估值为 38.6 亿美元,预计从 2024 年到 2030 年将以 45.1% 的复合年增长率增长。

智能体在工作时需要具备三个关键要素:感知、决策和执行。凭借感知,它能够获取外部环境的数据信息;通过决策,它可以制定相应的行动策略;借助执行,它能够采取具体行动来完成任务。更为高级的智能体还具备学习能力,能够依据不断的反馈,调整和优化自身行为方式。

举个例子,实在 Agent 就可看作是一个智能体。当我们与它对话时,它感知我们输入的问题(感知),在内部经过一系列复杂的分析与决策过程,思考如何作答,最后将答案呈现给我们(执行)。并且,随着与众多用户的交互,它对各类问题的回答也会不断优化(学习能力) 。

总之,智能体就像一个神秘而强大的 “数字伙伴”,正以独特的魅力和无限的潜力,悄然改变着我们的生活与工作,接下来,就让我们一同深入探索它的奇妙世界。

二、语言模型与智能体的差异

在人工智能领域,语言模型与智能体虽有联系,但差异也十分显著。形象地说,语言模型像是一个特别会 “接话茬” 的朋友,你说一半,它能帮你接下去,你提问,它会认真回答;而智能体则如同 “模型” 的好伴侣,它带有一定的 “自我意识”,存在的意义便是助力模型更准确地回答问题且执行工作 。

下面,我们就来深入探讨二者的差异。

(一)LLM 的局限

大语言模型(LLM)作为当前自然语言处理领域的重要技术,利用词嵌入和变换器架构,能够执行高级自然语言处理任务,对人类语言有着相当出色的理解能力 。然而,它存在着一定的局限性。LLM 的知识库是固定的,在其训练完成 “出厂” 时便已确定,这意味着它无法回答知识库之外的问题。

例如,若知识库截止到 2023 年的数据,对于 2024 年新发生的事件,它就难以给出准确回应。即便可以通过为模型提供外部知识库,如使用 google 搜索作为知识库,让其知识库扩展到整个互联网,但又面临一个棘手问题:并非所有查询都需要检索,有些问题大型语言模型自身其实已经知晓答案,可如何分辨这些问题,成为了摆在面前的难题。

(二)智能体的登场

智能体的出现,有效地解决了 LLM 所面临的上述局限问题。具体而言,智能体可以执行以下关键操作:

首先是问题分类。智能体能够将问题分类为事先规划好的类别,以此来判断该问题是否需要查询,从而决定后续是否要使用工具 。在创建智能体前,通常需事先规划一个问题类别表,并训练一个专门的 “分类模型”。比如,当用户输入 “将下列句子翻译成英语:……”,分类模型就能将此问题归类为 “翻译”;若输入 “我明天去 xx,请给我穿衣建议。”,它能归类为 “建议”。这样的分类为后续准确处理问题奠定基础。

其次是工具使用。一旦智能体依据分类模型的结果,判断出固有知识库无法回答用户问题时,便会尝试使用工具来获取外部知识库 。像实际应用中可以借助 langchain 等工具来实现这一过程。新版 Ollama 甚至已经能够直接使用工具。当智能体获取到外部知识库后,还会运用 RAG 技术将知识切片并向量化,最终通过算法把最相关的知识拼接成上下文,为准确回答问题提供有力支持。

再者是选择模型。一般情况下,大语言模型知识广泛但不够专精,对于多数常见问题能应对自如,但遇到较为专业且深入的问题时,往往难以给出令人满意的答案 。此时,智能体可以优先选择专业性强的小语言模型进行第一轮回答。训练某领域非常专业的小模型,不仅更容易得到优质回答,还能减少资源消耗,实现对资源的有效利用。

最后是优化答案。小模型虽然回答可能专业准确,但在文字组织方面可能不如大语言模型 。智能体可以将第一轮答案输入大语言模型进行总结,必要时再次使用工具添加上下文,从而生成更加通顺(适用于需要文案输出的场景)或更加紧凑(适用于需要节省成本的场景)的答案。

总之,智能体凭借其独特的功能,弥补了 LLM 的不足,让人工智能在处理各类问题时更加智能、高效。

三、智能体的具体运作

(一)问题分类

智能体在接到用户输入的问题时,首先要进行问题分类。这就好比我们在整理文件,需要把不同类型的文件放到对应的文件夹中。在创建智能体之前,开发团队会事先精心规划一个问题类别表,这个表涵盖了各种可能出现的问题类型。同时,还会训练一个专门的 “分类模型”,该模型就像是一位 “问题识别专家”,它既要能理解自然语言,又要擅长文本分类。

例如,当用户提出 “如何制定一份高效的职场工作计划?”,分类模型可以将其归类为 “职场办公 - 计划制定” 类别;要是用户问 “帮我写一篇关于旅游的小红书文案”,则会被归类到 “文案写作 - 特定平台文案创作” 类别。通过这样的分类方式,智能体能够清晰判断该问题是否需要查询外部知识库,为后续准确处理问题指明方向。

(二)工具使用

一旦智能体依据分类模型的结果,判断固有知识库无法回答用户的问题时,它就会像一位聪明的探索者,尝试使用工具来获取外部知识库。在实际应用中,langchain 等工具常被用于实现这一过程,新版 Ollama 更是已经具备直接使用工具的能力。

当智能体获取到外部知识库后,还需要对这些知识进行处理,使其能够更好地为回答问题服务。这时候,RAG(Retrieval-Augmented Generation)技术就发挥作用了。RAG 技术就像一位精细的工匠,将知识切片,然后把这些切片向量化,使知识变成计算机更容易理解和处理的形式。最后,通过巧妙的算法,把最相关的知识拼接成上下文,为智能体准确回答问题提供丰富且有力的支持。比如说,当用户询问关于某个新兴科技的最新发展动态,而智能体自身知识库中没有相关信息时,它就可以借助工具获取外部资讯网站、专业论坛等知识库中的内容,再经过 RAG 技术处理,为用户呈现出准确且全面的答案。

(三)选择模型

一般情况下,大语言模型虽然知识广泛,如同一个知识渊博的万事通,对于大多数常见问题能够对答如流。但当遇到较为专业且深入的问题时,就如同让一个全科医生去解决高难度的专科病症,往往难以给出令人满意的答案。此时,智能体的 “选择模型” 功能就显得尤为重要,它可以优先选择专业性强的小语言模型进行第一轮回答。

这是因为训练某领域非常专业的小模型,就像是培养一位专精于某一领域的专家,更容易针对特定领域的问题得到优质回答。而且,小模型在运行过程中消耗的资源比较少,能够更好地对资源进行有效利用,避免了大语言模型在处理专业问题时可能出现的 “大材小用” 和资源浪费情况。例如,在医学领域,当用户询问某种罕见疾病的最新治疗方案时,一个专门针对医学领域训练的小语言模型,可能会比通用的大语言模型给出更准确、更专业的答案。同时,大模型和小模型也并非完全独立,它们可以优势互补。大模型在知识广度和语言理解、生成的流畅性上有优势,小模型在专业深度上表现出色,二者结合,让智能体在应对各种问题时更加得心应手。

(四)优化答案

小模型虽然在回答专业性问题时可能专业准确,但在文字组织方面,就好比一位专业能力很强但不善言辞的专家,可能不如大语言模型那样流畅自然。这时,智能体的 “优化答案” 步骤就发挥作用了。

智能体可以将小模型给出的第一轮答案输入大语言模型进行总结和重写。在需要文案输出的场景下,大语言模型能够对答案进行润色,使其更加通顺、富有文采,就像给一篇内容充实但语言平淡的文章进行精心雕琢,让它更符合人们的阅读习惯和审美需求。比如在撰写产品宣传文案时,经过大语言模型优化后的答案,能够更生动地展现产品特点,吸引消费者的注意力。而在需要节省成本的场景下,大语言模型可以对答案进行提炼,使其更加紧凑,去除一些不必要的表述,在保证关键信息完整的前提下,减少资源的消耗。例如在一些对字数限制严格的场景中,如短信回复、社交媒体简短评论等,紧凑的答案既能够准确传达信息,又不会超出限制。

四、智能体的应用实例

以文心智能体搭建 “万兽皆可黑神话” 智能体为例,便能清晰看到智能体在实际应用中的卓越表现。

《黑神话:悟空》自 2024 年 8 月 20 日全球解锁后成绩斐然,截止北京时间 2024 年 8 月 23 日 21 点整,全平台销量超 1000 万套,全平台最高同时在线人数达 300 万人 。在这股热潮中,有人便借助文心智能体打造了 “万兽皆可黑神话” 智能体,为用户带来独特体验。

从效果上看,该智能体简单易用,用户只需输入一个动物名称,就能一键生成具有黑神话风格的拟人化角色。比如输入 “老虎”,就能得到老虎拟人化后的形象,它兽头人身,表情愤怒,面目狰狞,身材高挑,身披红色披风与战袍,身着金色盔甲,手持棍棒器械,站在黑暗系熔岩背景中,呈现出电影海报般的视觉效果,风格写实且高度详细,充满视觉震撼。

在实现过程中,首先要理清思路。为达成自动生成理想图像的目标,需借助绘图提示词。先预设一个提示词模板,预留位置让用户输入动物名。用户输入后,将动物名填入模板生成完整提示词,再调用绘图插件输出图像。整体流程为:用户输入自然语言描述,提取其中动物名,补全提示词,调用绘图插件生成图像,最后将结果反馈给用户 。

具体实战教程如下:

搭建工作流:在百度文心智能体平台进行操作。首先创建工作流,进入工作流编排页。在节点【开始】处添加输入参数{‘参数名称’:‘animal’, ‘参数类型’:‘String’, ‘参数描述’:‘动物’},用于从用户输入文本提取 “动物” 关键词。在节点【大模型】处,编写合适绘图提示词模板,如 “全身镜头,{{input}} 拟人化,{{input}} 拟人化,兽头人身,表情愤怒,面目狰狞,炯炯有神,眼光犀利,身材高挑,红色披风,红色战袍,身高两米,手持棍棒器械,金色盔甲,史诗级,惊人的史诗般的古代中国主题,中国艺术家风格 ,动态,武术风格,黑暗系熔岩背景,电影海报风格,令人惊叹的,风格写实,高度详细,照片级真实感,生动的,鲜明的,3D 渲染,8K ,Octane 渲染,虚幻引擎 5 ,CryEngine,逼真的光影和阴影,光影对比强烈,视觉震撼,电影级光照,高质量,高细节,超高清”,确保节点 1 输出的 “动物” 名能嵌入其中,保证生成图像风格一致。接着在节点【ImageCreateV2】处插入 “AI 绘图助手” 插件,按要求配置完成此节点。最后在节点【结束】将图片与文本内容按指定格式输出,完成工作流程搭建 。

搭建智能体:完成工作流搭建后,在智能体编排页,引导用户输入动物名,调用已搭建好的工作流,稳定输出图像。之后再对智能体进行包装优化,提升用户使用体验。

通过 “万兽皆可黑神话” 智能体这一实例,充分展现出智能体在实际应用中能够根据需求,通过巧妙的流程设计与技术运用,为用户提供独特且优质的服务,满足多样化的创意与使用需求。

五、智能体的未来展望

随着科技的飞速发展,智能体的未来充满了无限可能,其发展前景极为广阔,有望在众多新领域中大放异彩。

在医疗健康领域,智能体或许将成为医生的得力 “助手”。它不仅能快速分析患者的各项检查数据,如病历、影像资料等,辅助医生做出更精准的诊断,还能依据患者的个体差异,制定个性化的治疗方案。例如,针对癌症患者,智能体可以整合最新的医学研究成果和过往大量的治疗案例,为医生提供最佳的治疗建议,甚至预测治疗过程中可能出现的不良反应,帮助医生提前做好应对措施。同时,在患者康复阶段,智能体可充当健康管理顾问,为患者制定专属的康复计划,包括饮食、运动等方面的指导,并实时跟踪患者的康复进度,根据实际情况进行动态调整。

教育领域也将因智能体的深度融入而发生深刻变革。智能体有望成为每个学生的专属学习伙伴,根据学生的学习进度、知识掌握程度以及学习风格,量身定制个性化的学习路径。比如,当学生在学习数学时遇到困难,智能体可以通过分析学生的错题类型和解题思路,发现其知识薄弱点,然后针对性地提供相关的知识点讲解、练习题以及拓展学习资源。在语言学习方面,智能体能够模拟真实的语言环境,与学生进行对话练习,纠正发音,提升学生的口语表达能力。而且,智能体还能对学生的学习状态进行实时监测,当发现学生出现学习疲劳或情绪波动时,及时给予鼓励和引导,激发学生的学习动力。

智能体在智能家居领域同样潜力巨大。未来,智能体将实现对家庭设备更智能化、人性化的控制与管理。想象一下,当你清晨醒来,智能体已经根据当天的天气情况和你的日程安排,为你准备好合适的衣物,并自动调节室内的温度、湿度和光线,营造舒适的起床环境。在你离家后,智能体能够实时监控家中的安全状况,一旦发现异常情况,如门窗未关、有陌生人闯入等,立即向你发送警报信息,并联动相关设备采取应对措施。当你下班回家途中,通过手机与智能体沟通,它可以提前开启空调、预热晚餐,让你一进家门就能享受舒适的生活。

在城市规划与管理方面,智能体也将发挥重要作用。它能够收集和分析城市交通、能源消耗、人口流动等多方面的数据,为城市规划者提供科学的决策依据。例如,通过对交通流量数据的实时分析,智能体可以优化交通信号灯的设置,缓解交通拥堵;根据能源消耗数据,提出节能减排的建议,推动城市的可持续发展。此外,在应对自然灾害等紧急情况时,智能体可以快速整合各类资源信息,制定应急救援方案,调配救援力量,提高城市的应急响应能力和灾害应对效率。

总之,智能体的未来发展前景令人期待,它将如同催化剂一般,加速各个领域的创新与变革,为我们的生活带来更多的便利、高效与美好。我们有理由相信,在不久的将来,智能体将全方位融入我们的生活,成为推动社会进步的重要力量。

下面给大家分享一份2025最新版的大模型学习路线,帮助新人小白更系统、更快速的学习大模型!
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。

L2级别:AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3级别:大模型Agent应用架构进阶实践

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别:大模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

三、大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

四、大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版CSDN大礼包:《AGI大模型学习资源包》免费分享

Logo

更多推荐