多模态交互的未来:全面解析智能体人工智能(AGENT AI)的前沿技
多模态人工智能系统有望在日常生活中普及。将这些系统具象化为物理和虚拟环境中的智能体,是增强其交互性的一种有效途径。目前,许多系统利用现有的基础模型作为构建具身智能体的基本模块。将智能体融入这些环境有助于模型处理和解释视觉及上下文数据,这对于构建更复杂、更具情境感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为、环境物体、音频表达和场景整体情感的系统,可用于在特定环境中为智能体的响
你能想象未来的AI不仅能听懂你的话、看懂你做的事,还能像人一样在真实和虚拟世界中灵活行动、与你自然互动吗?Agent AI的出现正让这个想象逐渐成为现实!它融合了多种前沿技术,在游戏、医疗、机器人等领域掀起了创新浪潮,但同时也面临着不少难题。想知道它究竟是如何做到的,又有哪些挑战吗?快来一探究竟!

早期AI系统研究目标分散,如今大语言模型(LLMs)和视觉语言模型(VLMs)的发展为创建新型AI智能体带来契机。Agent AI利用这些模型,融合多种能力,在游戏、机器人、医疗等领域展现出巨大潜力,有望重新定义人类体验、提升行业标准,但也面临技术和伦理等多方面的挑战。其研究对于推动AI发展、解决实际问题以及应对伦理挑战具有重要意义。

摘要&解读
多模态人工智能系统有望在日常生活中普及。将这些系统具象化为物理和虚拟环境中的智能体,是增强其交互性的一种有效途径。目前,许多系统利用现有的基础模型作为构建具身智能体的基本模块。将智能体融入这些环境有助于模型处理和解释视觉及上下文数据,这对于构建更复杂、更具情境感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为、环境物体、音频表达和场景整体情感的系统,可用于在特定环境中为智能体的响应提供信息和指导。为加速基于智能体的多模态智能研究,我们将 “智能体人工智能” 定义为一类能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生有意义的具身动作的交互系统。特别地,我们探索了通过整合外部知识、多感官输入和人类反馈,基于下一步具身动作预测来改进智能体的系统。我们认为,在有实际基础的环境中开发智能体人工智能系统,有助于减少大型基础模型的幻觉现象,以及它们生成与环境不符输出的倾向。新兴的智能体人工智能领域涵盖了多模态交互中更广泛的具身和智能体相关方面。除了在物理世界中行动和交互的智能体,我们还设想未来人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中的智能体进行交互。
-
• 研究背景:早期 AI 研究分散,难以形成统一智能系统。大语言模型(LLMs)和视觉语言模型(VLMs)的发展,在语言理解、视觉感知等方面取得显著成果,为构建能融合多种能力、在不同环境交互的新型 AI 智能体奠定基础,促使 Agent AI 这一新兴领域快速发展。
-
• 研究贡献:
-
• 定义与范式创新:明确定义 Agent AI,提出新的训练范式和框架,构建统一的端到端智能体系统训练范式,引入智能体令牌,为智能体训练提供新思路。
-
• 分类与应用拓展:对 Agent AI 进行全面分类,探索其在多领域的应用,推动 Agent AI 在游戏、机器人、医疗等行业的落地,拓展技术应用边界。
-
• 数据集构建:提出 “CuisineWorld” 和 “VideoAnalytica” 两个基准数据集,为 Agent AI 研究提供标准化评估资源,促进研究发展。
-
-
• 实现设计:
-
• 模型集成:将 Agent AI 与大型基础模型集成,针对集成中出现的问题,采用多种策略优化,如改进模型训练数据、引入外部知识等。
-
• 组件构建:基于 LLMs 和 VLMs 构建 Agent AI 组件,利用预训练和冻结的视觉、语言模型,学习连接模态的子网络,并可通过智能体令牌初始化子模块。
-
• 学习策略:采用强化学习、模仿学习等多种学习策略训练 Agent AI,通过解耦、泛化等过程实现智能体在不同任务和环境中的适应性和涌现行为。
-
-
• 实验结果:
-
• 游戏领域:在《我的世界》《血腥边缘》《微软飞行模拟器》等游戏中,基于 Agent AI 的系统能够理解游戏场景、预测动作、生成有意义内容,如通过 GPT - 4V 实现游戏动作预测、掩码视频预测、低层次动作预测等。
-
• 机器人领域:集成 ChatGPT 赋能的任务规划器的机器人教学系统,可有效规划机器人任务;利用 GPT - 4V 和 GPT - 4 的多模态任务规划器,能根据视频演示和文本指令生成机器人任务计划。
-
• 医疗领域:GPT - 4V 在医疗图像和视频理解中展现出一定的医学知识推理能力,但受安全训练限制,部分诊断功能受限。
-
• 多模态与自然语言处理领域:通过相关模型和方法,在多模态任务、视频语言实验和自然语言处理任务中取得进展,如 InstructBLIP 的视频微调变体可生成视频长文本响应 。
-
目录
-
1. 引言
-
2. 智能体人工智能集成
-
3. 智能体人工智能范式
-
4. 智能体人工智能学习
-
5. 智能体人工智能分类
-
6. 智能体人工智能应用任务
-
7. 跨模态、领域和现实的智能体人工智能
-
8. 智能体人工智能的持续学习和自我提升
-
9. 智能体数据集和排行榜
-
10. 更广泛的影响声明

1. 引言
1.1 动机
在1956年的达特茅斯会议上,人工智能系统被定义为能够从环境中收集信息并以有用方式与之交互的人造生命形式。受此定义启发,明斯基(Minsky)的麻省理工学院团队于1970年构建了一个名为 “Copy Demo” 的机器人系统,该系统能够观察 “积木世界” 场景,并成功重建所观察到的多面体积木结构。这个包含观察、规划和操作模块的系统表明,这些子问题极具挑战性,需要进一步研究。随后,人工智能领域逐渐分化为多个专业子领域,它们在很大程度上独立地在解决这些及其他问题上取得了重大进展,但过度的还原论模糊了人工智能研究的总体目标。
为了突破现状,有必要回归到受亚里士多德整体主义启发的人工智能基础。幸运的是,最近大语言模型(LLMs)和视觉语言模型(VLMs)的革命使得创建符合整体主义理想的新型人工智能智能体成为可能。抓住这一机遇,本文探索了集成语言能力、视觉认知、上下文记忆、直观推理和适应性的模型,并研究了利用大语言模型和视觉语言模型完成这种整体综合的潜力。在探索过程中,我们还重新审视了基于亚里士多德 “目的因”(即系统存在的目的)的系统设计,这一点在之前的人工智能发展中可能被忽视了。
随着强大的预训练大语言模型和视觉语言模型的出现,自然语言处理和计算机视觉领域迎来了复兴。大语言模型如今展现出了令人惊叹的解读现实世界语言数据细微差别的能力,其表现常常与人类专业知识相当,甚至超越人类(OpenAI,2023)。最近,研究人员发现,大语言模型在与特定领域知识和模块结合时,可以作为智能体在各种环境中执行复杂的动作和任务(Xi等人,2023)。这些场景涉及复杂的推理、对智能体角色及其环境的理解,以及多步规划,考验着智能体在环境限制下做出高度细致和复杂决策的能力(Wu等人,2023;Meta基础人工智能研究(FAIR)外交团队等人,2022)。
在这些初步成果的基础上,人工智能界正处于重大范式转变的边缘,从为被动、结构化任务创建人工智能模型,转向构建能够在多样复杂环境中承担动态、智能体角色的模型。在此背景下,本文研究了将大语言模型和视觉语言模型用作智能体的巨大潜力,重点关注融合了语言能力、视觉认知、上下文记忆、直观推理和适应性的模型。在游戏、机器人和医疗保健等领域利用大语言模型和视觉语言模型作为智能体,不仅为最先进的人工智能系统提供了严格的评估平台,还预示着以智能体为中心的人工智能将对社会和行业产生变革性影响。当这些模型得到充分利用时,它们可以重新定义人类体验,提升运营标准。这些模型带来的广泛自动化潜力预示着行业和社会经济动态将发生巨大变化。正如我们将在第11节中详细阐述的,这些进展将与多方面的考量交织在一起,不仅涉及技术层面,还包括伦理层面。我们深入研究智能体人工智能这些子领域的重叠部分,并在图1中展示它们的相互关联性。
1.2 背景
我们现在将介绍支持智能体人工智能的概念、理论背景和现代实现的相关研究论文。
-
• 大型基础模型:大语言模型和视觉语言模型一直在推动通用智能机器的发展(Bubeck等人,2023;Mirchandani等人,2023)。尽管它们是在大规模文本语料库上进行训练的,但它们卓越的问题解决能力并不局限于标准的语言处理领域。大语言模型有能力处理以前被认为只有人类专家或特定领域算法才能解决的复杂任务,从数学推理(Imani等人,2023;Wei等人,2022;Zhu等人,2022)到回答专业法律问题(Blair-Stanek等人,2023;Choi等人,2023;Nay,2022)。最近的研究表明,大语言模型可用于为机器人和游戏人工智能生成复杂的计划(Liang等人,2022;Wang等人,2023a,b;Yao等人,2023a;Huang等人,2023a),这标志着大语言模型作为通用智能体的一个重要里程碑。
-
• 具身人工智能:许多研究利用大语言模型进行任务规划(Huang等人,2022a;Wang等人,2023b;Yao等人,2023a;Li等人,2023a),特别是大语言模型在万维网规模的领域知识和新兴的零样本具身能力,可用于执行复杂的任务规划和推理。最近的机器人研究也利用大语言模型进行任务规划(Ahn等人,2022a;Huang等人,2022b;Liang等人,2022),将自然语言指令分解为一系列子任务,这些子任务可以是自然语言形式或Python代码形式,然后使用低级控制器执行这些子任务。此外,他们还结合环境反馈来提高任务性能(Huang等人,2022b;Liang等人,2022;Wang等人,2023a;Ikeuchi等人,2023)。
-
• 交互式学习:为交互式学习设计的人工智能智能体结合了机器学习技术和用户交互。最初,人工智能智能体在大型数据集上进行训练,该数据集包含各种类型的信息,具体取决于智能体的预期功能。例如,为语言任务设计的人工智能将在大规模文本数据语料库上进行训练。训练过程使用机器学习算法,可能包括像神经网络这样的深度学习模型。这些训练模型使人工智能能够识别模式、进行预测,并根据训练数据生成响应。人工智能智能体还可以从与用户的实时交互中学习。这种交互式学习可以通过多种方式实现:1)基于反馈的学习:人工智能根据用户的直接反馈调整其响应(Li等人,2023b;Yu等人,2023a;Parakh等人,2023;Zha等人,2023;Wake等人,2023a,b,c)。例如,如果用户纠正了人工智能的响应,人工智能可以利用这些信息改进未来的响应(Zha等人,2023;Liu等人,2023a)。2)观察学习:人工智能观察用户的交互并进行隐式学习。例如,如果用户经常提出类似的问题或以特定方式与人工智能交互,人工智能可能会调整其响应以更好地适应这些模式。这使得人工智能智能体能够理解和处理人类语言、多模态设置、解释跨现实上下文,并生成针对人类用户的响应。随着时间的推移,通过更多的用户交互和反馈,人工智能智能体的性能通常会持续提高。这个过程通常由人类操作员或开发人员监督,以确保人工智能学习得当,不会产生偏差或错误模式。
1.3 概述
多模态智能体人工智能(MAA)是一类基于对多模态感官输入的理解,在给定环境中生成有效动作的系统。随着大语言模型和视觉语言模型的出现,从基础研究到应用领域,众多多模态智能体人工智能系统被提出。虽然这些研究领域通过与各领域的传统技术集成而迅速发展(例如视觉问答和视觉语言导航),但它们在数据收集、基准测试和伦理视角等方面有着共同的关注点。在本文中,我们关注多模态智能体人工智能的一些代表性研究领域,即多模态、游戏(虚拟现实/增强现实/混合现实)、机器人和医疗保健,并旨在提供这些领域中常见问题的全面知识。通过这样做,我们期望了解多模态智能体人工智能的基本原理,并获得进一步推进其研究的见解。具体的学习成果包括:
-
• 多模态智能体人工智能概述:深入探讨其在当代应用中的原理和作用,使研究人员全面掌握其重要性和用途。
-
• 方法:通过游戏、机器人和医疗保健领域的案例研究,详细展示大语言模型和视觉语言模型如何增强多模态智能体人工智能。
-
• 性能评估:提供使用相关数据集评估多模态智能体人工智能的指导,重点关注其有效性和泛化能力。
-
• 伦理考量:讨论部署智能体人工智能的社会影响和伦理问题,强调负责任的开发实践。
-
• 新兴趋势和未来展望:对每个领域的最新发展进行分类,并讨论未来的发展方向。
基于计算机的行动和通用智能体在许多任务中都很有用。一个通用智能体要真正对用户有价值,它必须易于交互,并能在广泛的上下文和模态中进行泛化。我们旨在培育一个充满活力的研究生态系统,在智能体人工智能社区中营造一种共同的身份认同感和目标感。多模态智能体人工智能有潜力在各种上下文和模态中广泛应用,包括来自人类的输入。因此,我们相信这个智能体人工智能领域可以吸引不同领域的研究人员,促进一个充满活力的智能体人工智能社区和共同目标的形成。在学术界和工业界知名专家的带领下,我们期望本文能为所有研究人员带来互动性强、内容丰富的体验,包括智能体指令、案例研究、任务环节和实验讨论,确保提供全面且引人入胜的学习体验。
本文旨在提供关于智能体人工智能领域当前研究的全面知识。为此,本文的其余部分组织如下。第2节概述了智能体人工智能如何从与相关新兴技术(特别是大型基础模型)的集成中获益。第3节描述了我们为训练智能体人工智能提出的新范式和框架。第4节概述了智能体人工智能训练中广泛使用的方法。第5节对各种类型的智能体进行分类和讨论。第6节介绍智能体人工智能在游戏、机器人和医疗保健领域的应用。第7节探讨研究社区为开发通用智能体人工智能所做的努力,这种智能体能够跨多种模态、领域应用,并弥合模拟与现实之间的差距。第8节讨论智能体人工智能的潜力,它不仅依赖于预训练的基础模型,还能通过与环境和用户的交互不断学习和自我提升。第9节介绍我们为训练多模态智能体人工智能而设计的新数据集。第11节讨论人工智能智能体的伦理考量、本文的局限性和社会影响等热门话题。
2. 智能体人工智能集成
先前研究提出的基于大语言模型和视觉语言模型的基础模型,在具身人工智能领域仍表现出有限的性能,特别是在理解、生成、编辑以及在未见环境或场景中进行交互方面(Huang等人,2023a;Zeng等人,2023)。因此,这些局限性导致人工智能智能体的输出不尽如人意。当前以智能体为中心的人工智能建模方法侧重于直接可访问且定义明确的数据(例如世界状态的文本或字符串表示),并且通常使用从大规模预训练中学到的与领域和环境无关的模式,来预测每个环境的动作输出(Xi等人,2023;Wang等人,2023c;Gong等人,2023a;Wu等人,2023)。在(Huang等人,2023a)中,我们研究了结合大型基础模型进行知识引导的协作和交互式场景生成的任务,并展示了有前景的结果,表明基于知识的大语言模型智能体可以提高2D和3D场景理解、生成和编辑的性能,以及其他人与智能体的交互性能(Huang等人,2023a)。通过集成智能体人工智能框架,大型基础模型能够更深入地理解用户输入,从而形成一个复杂且自适应的人机交互系统。大语言模型和视觉语言模型的新兴能力在生成式人工智能、具身人工智能、多模态学习的知识增强、混合现实生成、文本到视觉编辑、游戏或机器人任务中的2D/3D模拟的人机交互中发挥着重要作用。智能体人工智能在基础模型方面的最新进展为解锁具身智能体的通用智能提供了迫切的催化剂。大型行动模型或智能体 - 视觉 - 语言模型为通用具身系统(如在复杂环境中的规划、问题解决和学习)开辟了新的可能性。智能体人工智能在元宇宙中进一步探索,并为早期的通用人工智能(AGI)提供了路径。
2.1 无限智能体人工智能
人工智能智能体具有基于其训练和输入数据进行解释、预测和响应的能力。尽管这些能力不断进步,但重要的是要认识到它们的局限性以及训练数据的影响。人工智能智能体系统通常具有以下能力:1)预测建模:人工智能智能体可以根据历史数据和趋势预测可能的结果或建议下一步行动。例如,它们可能预测文本的续写、问题的答案、机器人的下一步动作或场景的解决方案。2)决策能力:在某些应用中,人工智能智能体可以根据其推断做出决策。通常,智能体将基于最有可能实现特定目标的方式做出决策。对于像推荐系统这样的人工智能应用,智能体可以根据对用户偏好的推断来决定推荐哪些产品或内容。3)处理歧义:人工智能智能体通常可以通过基于上下文和训练推断最可能的解释来处理模糊输入。然而,它们的这种能力受到训练数据和算法范围的限制。4)持续改进:虽然一些人工智能智能体具有从新数据和交互中学习的能力,但许多大语言模型在训练后不会持续更新其知识库或内部表示。它们的推断通常仅基于最后一次训练更新时可用的数据。

我们在图2中展示了用于多模态和跨现实无关集成的增强交互式智能体及其涌现机制。人工智能智能体为每个新任务收集大量训练数据的成本可能很高,在许多领域甚至是不可能的。在这项研究中,我们开发了一种无限智能体,它学习将记忆信息从通用基础模型(例如GPT-X、DALL-E)转移到新的领域或场景,以用于物理或虚拟世界中的场景理解、生成和交互式编辑。
这种无限智能体在机器人领域的一个应用是RoboGen(Wang等人,2023d)。在这项研究中,作者提出了一个管道,自主运行任务命题、环境生成和技能学习的循环。RoboGen致力于将大型模型中嵌入的知识转移到机器人领域。
2.2 智能体人工智能与大型基础模型
最近的研究表明,大型基础模型在创建数据方面起着至关重要的作用,这些数据可作为确定智能体在环境约束下行动的基准。例如,在机器人操作(Black等人,2023;Ko等人,2023)和导航(Shah等人,2023a;Zhou等人,2023a)中使用基础模型。举例来说,Black等人使用图像编辑模型作为高级规划器来生成未来子目标的图像,从而指导低级策略(Black等人,2023)。对于机器人导航,Shah等人提出了一种系统,该系统使用大语言模型从文本中识别地标,并使用视觉语言模型将这些地标与视觉输入相关联,通过自然语言指令增强导航能力(Shah等人,2023a)。
2.2.1幻觉
生成文本的智能体常常容易出现幻觉现象,即生成的文本毫无意义或与提供的源内容不符(Raunak等人,2021;Maynez等人,2020)。幻觉可以分为两类:内在幻觉和外在幻觉(Ji等人,2023)。内在幻觉是指与源材料相矛盾的幻觉,而外在幻觉则是指生成的文本包含源材料中原本没有的额外信息。
一些有望降低语言生成中幻觉率的方法包括使用检索增强生成(Lewis等人,2020;Shuster等人,2021),或通过外部知识检索使自然语言输出更有依据的其他方法(Dziri等人,2021;Peng等人,2023)。一般来说,这些方法试图通过检索额外的源材料,并提供检查生成的响应与源材料之间是否存在矛盾的机制,来增强语言生成能力。
在多模态智能体系统中,视觉语言模型也被证明会出现幻觉(Zhou等人,2023b)。基于视觉的语言生成中出现幻觉的一个常见原因是过度依赖训练数据中对象和视觉线索的共现(Rohrbach等人,2018)。仅依赖预训练的大语言模型或视觉语言模型,且对特定环境进行有限微调的人工智能智能体,特别容易受到幻觉的影响,因为它们依靠预训练模型的内部知识库来生成动作,可能无法准确理解其部署环境中的世界状态动态。
2.2.2偏差与包容性
基于大语言模型或大型多模态模型(LMMs)的人工智能智能体,因其设计和训练过程中固有的几个因素而存在偏差。在设计这些人工智能智能体时,我们必须注重包容性,关注所有终端用户和利益相关者的需求。在人工智能智能体的背景下,包容性是指确保智能体的响应和交互具有包容性、尊重性,并对来自不同背景的广泛用户群体敏感的措施和原则。我们列出了智能体偏差和包容性的关键方面如下:
-
• 训练数据:基础模型在从互联网收集的大量文本数据上进行训练,这些数据包括书籍、文章、网站和其他文本来源。这些数据往往反映了人类社会中存在的偏差,模型可能会无意中学习并重现这些偏差,包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和片面观点。特别是,通过在互联网数据(通常仅为英文文本)上进行训练,模型隐含地学习了西方、受过教育、工业化、富裕和民主(WEIRD)社会的文化规范(Henrich等人,2010),这些社会在互联网上的存在比例过高。然而,必须认识到,人类创建的数据集不可能完全没有偏差,因为它们常常反映了最初生成和/或汇编数据的个人的社会偏见和倾向。
-
• 历史和文化偏见:人工智能模型在来自不同内容的大型数据集上进行训练。因此,训练数据通常包括来自各种文化的历史文本或材料。特别是,来自历史来源的训练数据可能包含代表特定社会文化规范、态度和偏见的冒犯性或贬损性语言。这可能导致模型延续过时的刻板印象,或无法完全理解当代文化的转变和细微差别。
-
• 语言和上下文限制:语言模型可能难以理解和准确表达语言中的细微差别,如讽刺、幽默或文化典故。这可能导致在某些语境中的误解或有偏差的响应。此外,许多口语方面的内容无法被纯文本数据捕捉,这导致人类对语言的理解与模型对语言的理解之间可能存在脱节。
-
• 政策和指南:人工智能智能体在严格的政策和指南下运行,以确保公平性和包容性。例如,在生成图像时,有规定要求对人物的描绘多样化,避免与种族、性别和其他属性相关的刻板印象。
-
• 过度泛化:这些模型倾向于根据在训练数据中看到的模式生成响应。这可能导致过度泛化,即模型可能产生似乎对某些群体进行刻板概括或做出宽泛假设的响应。
-
• 持续监测和更新:人工智能系统不断受到监测和更新,以解决任何新出现的偏差或包容性问题。用户的反馈和人工智能伦理方面的持续研究在这一过程中起着至关重要的作用。
-
• 主导观点的放大:由于训练数据通常包含来自主导文化或群体的更多内容,模型可能更偏向于这些观点,这可能会导致对少数群体观点的代表性不足或错误呈现。
-
• 符合伦理和包容性的设计:人工智能工具的设计应以伦理考量和包容性为核心原则,包括尊重文化差异、促进多样性,并确保人工智能不会延续有害的刻板印象。
-
• 用户指南:也会指导用户以促进包容性和尊重的方式与人工智能进行交互,包括避免提出可能导致有偏差或不适当输出的请求。此外,这有助于减少模型从用户交互中学习有害内容的情况。
尽管采取了这些措施,人工智能智能体仍然存在偏差。智能体人工智能研究和开发方面的持续努力,主要集中在进一步减少这些偏差,并增强智能体人工智能系统的包容性和公平性。减轻偏差的措施包括:
-
• 多样化和包容性的训练数据:努力在训练数据中纳入更多样化和包容性的来源。
-
• 偏差检测和纠正:持续的研究致力于检测和纠正模型响应中的偏差。
-
• 伦理准则和政策:模型通常受伦理准则和政策的约束,旨在减轻偏差,并确保交互具有尊重性和包容性。
-
• 多样化的代表性:确保人工智能智能体生成的内容或提供的响应,能够代表广泛的人类经验、文化、种族和身份。这在图像生成或叙事构建等场景中尤为重要。
-
• 偏差缓解:积极致力于减少人工智能响应中的偏差,包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏差,目标是提供公平和平衡的响应,避免延续刻板印象或偏见。
-
• 文化敏感性:设计人工智能时考虑文化敏感性,承认并尊重文化规范、实践和价值观的多样性,包括理解并恰当地回应文化典故和细微差别。
-
• 可及性:确保人工智能智能体对不同能力的用户都是可访问的,包括残疾用户。这可能涉及纳入一些功能,使视力、听力、运动或认知障碍的人更容易进行交互。
-
• 基于语言的包容性:支持多种语言和方言,以满足全球用户的需求,并对语言中的细微差别和变化保持敏感(Liu等人,2023b)。
-
• 符合伦理和尊重性的交互:对智能体进行编程,使其以符合伦理和尊重的方式与所有用户交互,避免可能被视为冒犯、有害或不尊重的响应。
-
• 用户反馈和适应:纳入用户反馈,不断提高人工智能智能体的包容性和有效性,包括从交互中学习,以更好地理解和服务多样化的用户群体。
-
• 遵守包容性指南:遵守为人工智能智能体制定的包容性指南和标准,这些通常由行业组织、伦理委员会或监管机构设定。
尽管做出了这些努力,重要的是要意识到响应中可能存在的偏差,并以批判性思维进行解读。人工智能智能体技术和伦理实践的不断改进,旨在随着时间的推移减少这些偏差。智能体人工智能包容性的一个总体目标,是创建一个尊重并对所有用户可访问的智能体,无论他们的背景或身份如何。
2.2.3数据隐私与使用
人工智能智能体的一个关键伦理考量,涉及理解这些系统如何处理、存储以及潜在地检索用户数据。我们在下面讨论关键方面:
-
• 数据收集、使用和目的:在使用用户数据来提高模型性能时,模型开发者会访问人工智能智能体在生产过程中与用户交互时收集的数据。一些系统允许用户通过用户账户或向服务提供商提出请求来查看自己的数据。重要的是要清楚人工智能智能体在这些交互过程中收集了哪些数据,这可能包括文本输入、用户使用模式、个人偏好,有时还包括更敏感的个人信息。用户还应该了解从他们的交互中收集的数据是如何使用的。如果由于某种原因,人工智能对特定个人或群体持有错误信息,应该有一个机制,让用户在发现后帮助纠正这些信息。这对于准确性以及尊重所有用户和群体都很重要。检索和分析用户数据的常见用途包括改善用户交互、个性化响应和系统优化。对于开发者来说,确保数据不被用于用户未同意的目的(如未经请求的营销)极为重要。
-
• 存储和安全:开发者应该清楚用户交互数据存储在哪里,以及采取了哪些安全措施来保护数据免受未经授权的访问或泄露,这包括加密、安全服务器和数据保护协议。确定智能体数据是否与第三方共享以及在何种条件下共享也非常重要,这应该是透明的,并且通常需要用户同意。
-
• 数据删除和保留:用户了解用户数据存储的时长以及如何请求删除数据也很重要。许多数据保护法律赋予用户 “被遗忘权”,这意味着他们可以请求删除自己的数据。人工智能智能体必须遵守欧盟的《通用数据保护条例》(GDPR)或加利福尼亚州的《加州消费者隐私法案》(CCPA)等数据保护法律,这些法律规定了数据处理实践和用户对其个人数据的权利。
-
• 数据可移植性和隐私政策:此外,开发者必须创建人工智能智能体的隐私政策,记录并向用户解释如何处理他们的数据,这应该详细说明数据收集、使用、存储和用户权利。开发者应该确保在收集数据(特别是敏感信息)时获得用户同意。用户通常可以选择退出或限制提供的数据。在某些司法管辖区,用户甚至有权以可转移到另一个服务提供商的格式请求获取自己的数据副本。
-
• 匿名化:对于用于更广泛分析或人工智能训练的数据,理想情况下应该进行匿名化处理,以保护个人身份。开发者必须了解他们的人工智能智能体在交互过程中如何检索和使用历史用户数据,这可能用于个性化或提高响应的相关性。
总之,理解人工智能智能体的数据隐私,涉及了解用户数据如何被收集、使用、存储和保护,并确保用户了解他们在访问、纠正和删除数据方面的权利。了解用户和人工智能智能体的数据检索机制,对于全面理解数据隐私也至关重要。
2.2.4可解释性和可解释性
-
• 模仿学习→解耦:智能体通常在强化学习(RL)或模仿学习(IL)中,通过连续的反馈循环进行训练,从随机初始化的策略开始。然而,这种方法在不熟悉的环境中获取初始奖励时面临挑战,特别是当奖励稀疏或仅在长时间交互结束时才可用时。因此,一种更好的解决方案是使用通过模仿学习训练的无限记忆智能体,它可以从专家数据中学习策略,利用新兴的基础设施更好地探索和利用未见过的环境空间,如图3所示。借助专家特征,智能体可以更好地探索并利用未见过的环境空间。智能体人工智能可以直接从专家数据中学习策略和新的范式流程。
-

传统的模仿学习中,智能体通过模仿专家示范者的行为来学习策略。然而,直接学习专家策略并不总是最佳方法,因为智能体可能无法很好地泛化到未见的情况。为了解决这个问题,我们提出使用带有上下文提示或隐式奖励函数的智能体进行学习,该函数可以捕捉专家行为的关键方面,如图3所示。这为无限记忆智能体提供了从专家示范中学习的用于任务执行的物理世界行为数据,有助于克服现有模仿学习的缺点,如需要大量专家数据以及在复杂任务中可能出现的错误。智能体人工智能背后的关键思想有两个部分:1)无限智能体将物理世界的专家示范收集为状态 - 动作对;2)虚拟环境模仿智能体生成器。模仿智能体产生模仿专家行为的动作,而智能体通过最小化专家动作与所学策略生成的动作之间的差异损失函数,学习从状态到动作的策略映射。
-
• 解耦→泛化:智能体不是依赖特定任务的奖励函数,而是从专家示范中学习,这些示范提供了涵盖各种任务方面的多样化状态 - 动作对。然后,智能体通过模仿专家行为学习将状态映射到动作的策略。模仿学习中的解耦是指将学习过程与特定任务的奖励函数分离,使策略能够在不同任务中泛化,而无需明确依赖特定任务的奖励函数。通过解耦,智能体可以从专家示范中学习,并学习一种适应各种情况的策略。解耦实现了迁移学习,即在一个领域学习的策略可以通过最小的微调适应其他领域。由于智能体不依赖特定的奖励函数,它可以适应奖励函数或环境的变化,而无需进行大量重新训练,这使得学习到的策略在不同环境中更加稳健和可泛化。在这种情况下,解耦是指在学习过程中分离两个任务:学习奖励函数和学习最优策略。
-
• 泛化→涌现行为:泛化解释了涌现属性或行为如何从更简单的组件或规则中产生。关键在于识别支配系统行为的基本元素或规则,如单个神经元或基本算法。因此,通过观察这些简单组件或规则如何相互作用,这些组件的相互作用往往会导致复杂行为的出现,而这些复杂行为仅通过检查单个组件是无法预测的。跨不同复杂程度的泛化使系统能够学习适用于这些层次的一般原则,从而导致涌现属性。这使系统能够适应新情况,展示了从更简单规则中出现更复杂行为的过程。此外,跨不同复杂程度的泛化能力有助于知识从一个领域转移到另一个领域,这有助于系统在适应新环境时出现复杂行为。
2.2.5推理增强
人工智能智能体的推理能力在于其基于训练和输入数据进行解释、预测和响应的能力。尽管这些能力不断进步,但重要的是要认识到它们的局限性以及训练数据的影响。特别是在大语言模型的背景下,它指的是基于训练数据和接收的输入得出结论、进行预测和生成响应的能力。人工智能智能体中的推理增强是指使用额外的工具、技术或数据来增强人工智能的自然推理能力,以提高其性能、准确性和实用性。这在复杂的决策场景中,或处理细微或专业内容时尤为重要。我们特别指出推理增强的重要来源如下:
-
• 数据丰富化:纳入额外的(通常是外部的)数据源可以提供更多的上下文或背景信息,帮助人工智能智能体做出更明智的推断,特别是在其训练数据可能有限的领域。例如,人工智能智能体可以从对话或文本的上下文中推断含义。它们分析给定的信息,并利用这些信息理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式,并利用这种能力根据训练过程中学习到的模式,对语言、用户行为或其他相关现象进行推断。
-
• 算法增强:改进人工智能的基础算法,以进行更好的推断。这可能涉及使用更先进的机器学习模型,整合不同类型的人工智能(如将自然语言处理与图像识别相结合),或更新算法以更好地处理复杂任务。语言模型中的推理涉及理解和生成人类语言,包括把握语气、意图和不同语言结构的细微差别。
-
• 人在回路(HITL):在人类判断至关重要的领域(如伦理考量、创造性任务或模糊场景),引入人类输入来增强人工智能的推理特别有用。人类可以提供指导、纠正错误或提供智能体无法自行推断的见解。
-
• 实时反馈集成:利用来自用户或环境的实时反馈来增强推理,是在推理过程中提高性能的另一种有前景的方法。例如,人工智能可以根据实时用户响应或动态系统中的变化条件调整其建议。或者,如果智能体在模拟环境中采取的行动违反了某些规则,可以动态地给予反馈以帮助其纠正。
-
• 跨领域知识转移:在特定专业领域生成输出时,利用一个领域的知识或模型来改进另一个领域的推理可能特别有帮助。例如,为语言翻译开发的技术可能应用于代码生成,或者医学诊断中的见解可以增强机械的预测性维护。
-
• 针对特定用例的定制:为特定应用或行业定制人工智能的推理能力,可能涉及在专业数据集上训练人工智能,或微调其模型以更好地适应特定任务,如法律分析、医学诊断或财务预测。由于一个领域的特定语言或信息可能与其他领域有很大差异,在特定领域的信息上对智能体进行微调可能是有益的。
-
• 伦理和偏差考量:确保增强过程不会引入新的偏差或伦理问题非常重要。这涉及仔细考虑额外数据的来源,或新推理增强算法对公平性和透明度的影响。在进行推理时,特别是关于敏感话题,人工智能智能体有时必须考虑伦理问题,包括避免有害的刻板印象、尊重隐私和确保公平性。
-
• 持续学习和适应:定期更新和改进人工智能的能力,以跟上新的发展、不断变化的数据环境和不断演变的用户需求。
总之,人工智能智能体中的推理增强涉及通过额外数据、改进算法、人类输入和其他技术来增强其自然推理能力的方法。根据具体用例,这种增强通常对于处理复杂任务和确保智能体输出的准确性至关重要。
2.2.6监管
最近,智能体人工智能取得了重大进展,其与具身系统的集成,为通过更沉浸式、动态和引人入胜的体验与智能体进行交互开辟了新的可能性。为了加快这一进程,并简化智能体人工智能开发中的繁琐工作,我们提议开发下一代人工智能驱动的智能体交互管道。开发一种人机协作系统,使人类和机器能够进行有意义的交流和互动。该系统可以利用大语言模型或视觉语言模型的对话能力和广泛的动作,与人类玩家交流并识别他们的需求。然后,它将根据请求执行适当的动作来帮助人类玩家。

在将大语言模型/视觉语言模型用于人机协作系统时,必须注意这些模型就像黑盒一样,会产生不可预测的输出。在实际物理场景(如操作实际机器人)中,这种不确定性可能会成为关键问题。解决这一挑战的一种方法是通过提示工程来限制大语言模型/视觉语言模型的关注点。例如,在根据指令进行机器人任务规划时,据报道,在提示中提供环境信息比仅依赖文本能产生更稳定的输出(Gramopadhye和Szafir,2022)。这一报告得到了明斯基的人工智能框架理论(Minsky,1975)的支持,该理论表明,大语言模型/视觉语言模型要解决的问题空间是由给定的提示所定义的。另一种方法是设计提示,使大语言模型/视觉语言模型包含解释性文本,以便用户了解模型关注或识别的内容。此外,实施一个更高层次的模块,允许在人类指导下进行预执行验证和修改,有助于在这种指导下运行的系统的操作(图4)。
2.3 具有涌现能力的智能体人工智能
尽管交互式智能体人工智能系统的应用越来越广泛,但大多数已提出的方法在未见过的环境或场景中的泛化性能方面仍面临挑战。当前的建模实践要求开发者为每个领域准备大量数据集,以对模型进行微调或预训练;然而,这个过程成本高昂,如果是新领域,甚至是不可能的。为了解决这个问题,我们构建了交互式智能体,利用通用基础模型(ChatGPT、Dall-E、GPT-4等)的知识记忆来处理新场景,特别是用于生成人类和智能体之间的协作空间。我们发现了一种涌现机制——我们称之为 “混合现实与知识推理交互”,它有助于与人类协作,在复杂的现实世界环境中解决具有挑战性的任务,并能够探索未见过的环境以适应虚拟现实。对于这种机制,智能体学习:
-
1. 跨模态的微观反应:从明确的网络来源收集每个交互任务的相关个体知识(例如,理解未见过的场景),并通过对预训练模型的输出进行隐式推断。
-
2. 现实无关的宏观行为:改善语言和多模态领域的交互维度和模式,并根据角色特征、特定目标变量以及混合现实和大语言模型中协作信息的多样化影响进行调整。我们研究了结合各种OpenAI模型进行知识引导的交互式协同效应以生成协作场景的任务,并展示了有前景的结果,即交互式智能体系统如何在我们的设置中进一步提升大型基础模型的性能。它整合并提高了复杂自适应人工智能系统的泛化深度、意识和可解释性。
3. 智能体人工智能范式
在本节中,我们讨论一种用于训练智能体人工智能的新范式和框架。我们希望通过我们提出的框架实现几个目标:
-
1. 利用现有的预训练模型和预训练策略,有效地引导我们的智能体,使其对重要的模态(如文本或视觉输入)有有效的理解。
-
2. 支持足够的长期任务规划能力。
-
3. 纳入一个记忆框架,允许对学习到的知识进行编码并在以后检索。
-
4. 利用环境反馈有效地训练智能体,使其学习采取哪些行动。

我们在图5中展示了一个高层次的新智能体图表,概述了这样一个系统的重要子模块。
3.1 大语言模型和视觉语言模型
我们可以使用大语言模型或视觉语言模型来引导智能体的组件,如图5所示。特别是,大语言模型在任务规划方面表现出色(Gong等人,2023a),包含丰富的世界知识(Yu等人,2023b),并展示出令人印象深刻的逻辑推理能力(Creswell等人,2022)。此外,像CLIP(Radford等人,2021)这样的视觉语言模型提供了一个与语言对齐的通用视觉编码器,并具有零样本视觉识别能力。例如,像LLaVA(Liu等人,2023c)和InstructBLIP(Dai等人,2023)这样的最先进的开源多模态模型,依赖于冻结的CLIP模型作为视觉编码器。
3.2 智能体Transformer的定义

除了将冻结的大语言模型和视觉语言模型用于人工智能智能体之外,还可以使用单智能体Transformer模型,该模型将视觉令牌和语言令牌作为输入,类似于Gato(Reed等人,2022)。除了视觉和语言,我们添加了第三种通用类型的输入,我们将其表示为智能体令牌。从概念上讲,智能体令牌用于为智能体行为保留模型输入和输出空间的特定子空间。对于机器人技术或游戏玩法,这可以表示为控制器的输入动作空间。当训练智能体使用特定工具(如图像生成或图像编辑模型)或进行其他API调用时,也可以使用智能体令牌。如图7所示,我们可以将智能体令牌与视觉和语言令牌相结合,为训练多模态智能体人工智能生成统一的接口。与使用大型专有大语言模型作为智能体相比,使用智能体Transformer有几个优点。首先,该模型可以轻松定制,以适应那些可能难以用自然语言表示的特定智能体任务(例如,控制器输入或其他特定动作)。因此,智能体可以从环境交互和特定领域的数据中学习,以提高性能。其次,通过访问智能体令牌的概率,更容易理解模型采取或不采取特定行动的原因。第三,在某些领域,如医疗保健和法律,有严格的数据隐私要求。最后,相对较小的智能体Transformer可能比大型专有语言模型便宜得多。


3.3 智能体Transformer的创建
如图5所示,我们可以使用具有大语言模型和视觉语言模型引导的智能体的新范式,并利用大型基础模型生成的数据来训练智能体Transformer模型,以学习执行特定目标。在这个过程中,智能体模型被训练为针对特定任务和领域进行专门定制。这种方法允许利用预先存在的基础模型学习到的特征和知识。我们在下面分两步展示这个过程的简化概述:
-
1. 定义领域内的目标:为了训练智能体Transformer,需要在每个特定环境的背景下,明确定义智能体的目标和动作空间。这包括确定智能体需要执行的具体任务或动作,并为每个任务分配唯一的智能体令牌。此外,任何可以用于识别任务成功完成的自动规则或程序,都可以显著增加可用于训练的数据量。否则,将需要基础模型生成的数据或人工标注的数据来训练模型。在收集数据并能够评估智能体的性能后,持续改进的过程就可以开始了。
-
2. 持续改进:持续监控模型的性能并收集反馈是这个过程中至关重要的步骤。反馈应用于进一步的微调与更新。确保模型不会延续偏差或产生不符合伦理的结果也很关键。这需要仔细检查训练数据,定期检查输出中的偏差,并且如果需要,训练模型识别并避免偏差。一旦模型达到令人满意的性能,就可以将其部署到预期的应用中。持续监控仍然至关重要,以确保模型按预期执行,并便于进行必要的调整。关于这个过程、训练数据的来源以及智能体人工智能持续学习的更多细节,可以在第8节中找到。
4. 智能体人工智能学习
4.1 策略与机制
不同领域的交互式人工智能策略,扩展了调用大型基础模型的范式,训练有素的智能体会积极收集用户反馈、动作信息、用于生成和交互的有用知识。有时,大语言模型/视觉语言模型无需再次训练,我们可以通过在测试时为智能体提供改进的上下文提示来提高其性能。另一方面,它总是涉及通过三重系统的组合进行知识/推理/常识/推断交互式建模—— 一个系统从多模态查询中执行知识检索,第二个系统从相关智能体执行交互式生成,最后一个系统通过强化学习或改进的模仿学习方法,进行新的、有信息的自监督训练或预训练。
4.1.1 强化学习(RL)
利用强化学习来训练表现出智能行为的交互式智能体有着悠久的历史。强化学习是一种基于因动作而获得的奖励(或惩罚)来学习状态与动作之间最优关系的方法。强化学习是一个高度可扩展的框架,已应用于众多领域,包括机器人技术。然而,它通常面临一些挑战,而大语言模型/视觉语言模型已显示出缓解或克服其中一些困难的潜力:
-
1. 奖励设计:策略学习的效率在很大程度上取决于奖励函数的设计。设计奖励函数不仅需要了解强化学习算法,还需要深入理解任务的本质,因此通常需要根据专家经验来构建函数。一些研究探索了使用大语言模型/视觉语言模型来设计奖励函数(Yu等人,2023a;Katara等人,2023;Ma等人,2023)。
-
2. 数据收集与效率:鉴于其探索性的本质,基于强化学习的策略学习需要大量的数据(Padalkar等人,2023)。当策略涉及管理长序列或整合复杂动作时,对大量数据的需求尤为明显。这是因为这些场景需要更细致的决策,并从更广泛的情况中学习。最近的研究致力于加强数据生成以支持策略学习(Kumar等人,2023;Du等人,2023)。此外,在一些研究中,这些模型已被整合到奖励函数中,以改进策略学习(Sontakke等人,2023)。与此同时,另一系列研究专注于使用视觉语言模型(Tang等人,2023;Li等人,2023d)和大语言模型(Shi等人,2023)在学习过程中实现参数效率。
-
3. 长时程步骤:与数据效率问题相关,随着动作序列长度的增加,强化学习变得更具挑战性。这是由于动作与奖励之间关系的模糊性(称为信用分配问题),以及需要探索的状态数量增加,这需要大量的时间和数据。对于长期和复杂的任务,一种典型的方法是将它们分解为一系列子目标,并应用预训练的策略来解决每个子目标(例如,Takamatsu等人,2022)。这个想法属于称为任务和运动规划(TAMP)的框架(Garrett等人,2021)。任务和运动规划由两个主要部分组成:任务规划,即确定高级动作的序列;运动规划,即找到物理上一致、无碰撞的轨迹以实现任务计划的目标。
大语言模型非常适合任务和运动规划,最近的研究通常采用一种方法,即使用大语言模型执行高级任务规划,而低级控制则由基于强化学习的策略来处理(Xu等人,2023;Sun等人,2023a;Li等人,2023b;Parakh等人,2023)。大语言模型的先进能力使其能够有效地将即使是抽象的指令分解为子目标(Wake等人,2023c),有助于增强机器人系统中的语言理解能力。
4.1.2 模仿学习(IL)
强化学习旨在基于探索性的行为,并通过与环境的交互来最大化奖励,从而训练策略;而模仿学习则试图利用专家数据来模仿经验丰富的智能体或专家的动作。例如,在机器人技术中,基于模仿学习的一个主要框架是行为克隆(BC)。行为克隆是一种方法,其中机器人通过直接复制专家的动作来进行训练。在这种方法中,记录专家执行特定任务时的动作,机器人被训练在类似情况下重现这些动作。最近基于行为克隆的方法通常结合大语言模型/视觉语言模型的技术,实现更先进的端到端模型。例如,Brohan等人提出了RT-1(Brohan等人,2022)和RT-2(Brohan等人,2023),这是基于Transformer的模型,将一系列图像和语言作为输入,输出机器人底座和机械臂的动作序列。据报道,由于在大量训练数据上进行训练,这些模型显示出较高的泛化性能。
4.1.3 传统RGB
利用图像输入学习智能体行为多年来一直备受关注(Mnih等人,2015)。使用RGB输入的固有挑战是维度诅咒。为了解决这个问题,研究人员要么使用更多的数据(Jang等人,2022;Ha等人,2023),要么在模型设计中引入归纳偏差以提高样本效率。特别是,作者们将3D结构纳入模型架构用于操作任务(Zeng等人,2021;Shridhar等人,2023;Goyal等人,2023;James和Davison,2022)。对于机器人导航,作者们(Chaplot等人,2020a,b)利用地图作为表示。地图可以通过神经网络聚合所有先前的RGB输入来学习,或者通过像神经辐射场(Rosinol等人,2022)这样的3D重建方法来获取。
为了获得更多数据,研究人员使用图形模拟器合成数据(Mu等人,2021;Gong等人,2023b),并试图缩小模拟到现实的差距(Tobin等人,2017;Sadeghi和Levine,2016;Peng等人,2018)。最近,人们做出了一些共同努力,策划大规模数据集以解决数据稀缺问题(Padalkar等人,2023;Brohan等人,2023)。另一方面,为了提高样本复杂性,数据增强技术也得到了广泛研究(Zeng等人,2021;Rao等人,2020;Haarnoja等人,2023;Lifshitz等人,2023)。
4.1.4 上下文学习
随着像GPT-3这样的大语言模型的出现,上下文学习被证明是解决自然语言处理任务的有效方法(Brown等人,2020;Min等人,2022)。少样本提示被视为一种有效的方式,通过在大语言模型提示的上下文中提供任务示例,使模型输出在各种自然语言处理任务中具有上下文相关性。上下文演示中示例的多样性和质量等因素,可能会提高模型输出的质量(An等人,2023;Dong等人,2022)。在多模态基础模型的背景下,像Flamingo和BLIP-2(Alayrac等人,2022;Li等人,2023c)这样的模型,在仅给出少量示例时,已被证明在各种视觉理解任务中是有效的。通过在采取某些行动时纳入特定环境的反馈,可以进一步改进智能体在环境中的上下文学习(Gong等人,2023a)。
4.1.5 智能体系统中的优化
智能体系统的优化可以分为空间和时间两个方面。空间优化考虑智能体如何在物理空间中运作以执行任务,这包括机器人之间的协调、资源分配以及保持空间的有序性。
为了有效地优化智能体人工智能系统,特别是有大量智能体并行行动的系统,先前的工作主要集中在使用大批量强化学习(Shacklett等人,2023)。由于特定任务的多智能体交互数据集很少,自博弈强化学习使一组智能体能够随着时间的推移而改进。然而,这也可能导致智能体非常脆弱,只能在自博弈环境中工作,而无法与人类或其他独立智能体协作,因为它们过度拟合了自博弈训练范式。为了解决这个问题,我们可以发现一组多样化的惯例(Cui等人,2023;Sarkar等人,2023),并训练一个了解广泛惯例的智能体。基础模型可以进一步帮助与人类或其他独立智能体建立惯例,实现与新智能体的顺利协作。
另一方面,时间优化关注智能体如何随着时间执行任务,这包括任务调度、排序和时间线效率。例如,优化机器人手臂的轨迹就是在连续任务之间有效优化运动的一个例子(Zhou等人,2023c)。在任务调度层面,像LLM-DP(Dagan等人,2023)和ReAct(Yao等人,2023a)这样的方法,已经被提出来通过交互式地纳入环境因素来解决高效任务规划问题。
4.2 智能体系统(零样本和少样本水平)
4.2.1 智能体模块
我们对智能体范式的探索,涉及使用大语言模型或视觉语言模型开发用于交互式多模态智能体的智能体人工智能 “模块” 。我们最初的智能体模块便于训练或上下文学习,并采用极简主义设计,以展示智能体有效安排和协调的能力。我们还探索了基于提示的初始记忆技术,该技术有助于更好地规划,并为该领域内的未来行动提供指导。例如,我们的 “MindAgent” 基础设施由5个主要模块组成:1)带有任务规划的环境感知;2)智能体学习;3)记忆;4)通用智能体动作预测;5)认知,如图5所示。
4.2.2 智能体基础设施
基于智能体的人工智能在娱乐、研究和工业领域是一个庞大且快速发展的社区。大型基础模型的发展显著提高了智能体人工智能系统的性能。然而,以这种方式创建智能体受到创建高质量数据集所需的不断增加的工作量和总体成本的限制。在微软,构建高质量的智能体基础设施,通过使用先进的硬件、多样化的数据来源和强大的软件库,对多模态智能体协作者产生了重大影响。随着微软不断推动智能体技术的边界,人工智能智能体平台在未来几年有望继续成为多模态智能领域的主导力量。尽管如此,目前智能体人工智能交互仍然是一个复杂的过程,需要多种技能的结合。最近大型生成式人工智能模型领域的进展,有可能大大降低目前交互式内容所需的高昂成本和时间,这不仅对大型工作室有利,也使较小的独立内容创作者能够设计出超出他们目前能力的高质量体验。目前多模态智能体内部的人机交互系统主要是基于规则的。它们在响应用户动作时具有一定的智能行为,并在一定程度上拥有网络知识。然而,这些交互通常受到软件开发成本的限制,使得系统难以实现特定的行为。此外,当前的模型在用户无法完成特定任务的情况下,并没有被设计用来帮助用户实现目标。因此,需要一个智能体人工智能系统基础设施来分析用户行为,并在需要时提供适当的支持。
4.3 智能体基础模型(预训练和微调水平)
使用预训练的基础模型在其广泛的适用性方面具有显著优势,可用于各种不同的用例。这些模型的集成使得为各种应用开发定制解决方案成为可能,避免了为每个特定任务需要大量标记数据集的情况。
在导航领域的一个显著例子是LM-Nav系统(Shah等人,2023a),它以一种新颖的方式结合了GPT-3和CLIP。它有效地使用语言模型生成的文本地标,并将其锚定在机器人获取的图像中用于导航。这种方法展示了文本和视觉数据的无缝融合,显著增强了机器人导航能力,同时保持了广泛的适用性。
在机器人操作方面,多项研究建议使用现成的大语言模型(如ChatGPT),同时搭配开源词汇对象检测器。大语言模型与先进的对象检测器(如Detic(Zhou等人,2022))的结合,有助于理解人类指令,同时将文本信息与场景信息相结合(Parakh等人,2023)。此外,最新进展展示了使用提示工程与先进的多模态模型(如GPT-4V(ision) )的潜力(Wake等人,2023b)。这项技术为多模态任务规划开辟了道路,突显了预训练模型在各种场景中的多功能性和适应性。
5. 智能体人工智能分类
5.1 通用智能体领域
基于计算机的行动和通用智能体(GAs)在许多任务中都很有用。大型基础模型和交互式人工智能领域的最新进展为通用智能体带来了新功能。然而,要使通用智能体真正对用户有价值,它必须易于自然交互,并且能够在广泛的上下文和模态中进行泛化。我们在第6节中对智能体基础人工智能进行了高质量的扩展,特别是在与这些主题相关的领域:
多模态智能体人工智能(MMA)是一个新兴的论坛,供我们的研究和行业社区相互交流,并与更广泛的智能体人工智能研究和技术社区互动。大型基础模型和交互式人工智能领域的最新进展为通用智能体带来了新功能,例如在受限环境中预测用户行动和进行任务规划(例如MindAgent(Gong等人,2023a)、细粒度多模态视频理解(Luo等人,2022)、机器人技术(Ahn等人,2022b;Brohan等人,2023)),或者为用户提供结合知识反馈的聊天伙伴(例如医疗系统的网站客户支持(Peng等人,2023))。以下展示了更详细的代表性作品和最新的代表性作品。我们希望讨论我们对多模态智能体人工智能未来的愿景,并激励未来的研究人员在这个领域开展工作。本文和我们的论坛涵盖以下主要主题,但不仅限于这些:
-
• 主要主题:多模态智能体人工智能、通用智能体人工智能
-
• 次要主题:具身智能体、行动智能体、基于语言的智能体、视觉与语言智能体、知识与推理智能体、用于游戏的智能体、机器人智能体、医疗保健智能体等
-
• 扩展主题:视觉导航、模拟环境、重新排列、智能体基础模型、虚拟现实/增强现实/混合现实、具身视觉与语言
接下来,我们列出具体的代表性智能体类别如下:
5.2 具身智能体
我们的生物大脑存在于身体之中,而我们的身体在不断变化的世界中移动。具身人工智能的目标是创建诸如机器人之类的智能体,这些智能体学习以创造性的方式解决需要与环境交互的挑战性任务。尽管这是一项重大挑战,但深度学习的重要进展以及像ImageNet这样的大规模数据集的日益普及,使得在以前被认为难以解决的各种人工智能任务上实现超人性能成为可能。计算机视觉、语音识别和自然语言处理在诸如语言翻译和图像分类等被动输入 - 输出任务中经历了变革性的革命,而强化学习在诸如游戏等交互式任务中同样取得了世界级的性能。这些进展极大地推动了具身人工智能的发展,使越来越多的用户能够在朝着与机器交互的智能体方向上取得快速进展。
5.2.1 行动智能体
行动智能体是指需要在模拟物理环境或现实世界中执行物理动作的智能体。特别地,它们需要积极地与环境进行互动。我们根据其应用领域将行动智能体大致分为两类:游戏人工智能和机器人技术。
在游戏人工智能中,智能体将与游戏环境和其他独立实体进行交互。在这些场景中,自然语言可以实现智能体与人类之间的顺畅沟通。根据游戏的不同,可能存在特定的任务需要完成,从而提供真实的奖励信号。例如,在竞争性的外交游戏中,使用人类对话数据以及强化学习的行动策略来训练语言模型,可以实现人类水平的游戏表现(Meta基础人工智能研究(FAIR)外交团队等人,2022)。
也存在一些场景,其中智能体作为城镇中的普通居民(Park等人,2023a),而无需尝试优化特定目标。基础模型在这些场景中很有用,因为它们可以通过模仿人类行为来模拟更自然的交互。当配备外部记忆时,它们可以生成令人信服的智能体,这些智能体可以进行对话、制定日常日程、建立关系并拥有虚拟生活。
5.2.2 交互式智能体
交互式智能体指的是能够与世界进行交互的智能体,这是比行动智能体更广泛的一类智能体。它们的交互形式不一定需要物理动作,可能包括向用户传达信息或修改环境。例如,一个具身交互式智能体可以通过对话回答用户关于某个主题的问题,或者像聊天机器人一样帮助用户解析现有信息。通过扩展智能体的能力以包括信息共享,智能体人工智能的核心设计和算法可以有效地应用于一系列应用中,如诊断(Lee等人,2023)和知识检索(Peng等人,2023)智能体。
5.3 模拟和环境智能体
人工智能智能体学习如何在环境中行动的一种有效方法是通过与环境的试错交互来积累经验。一种代表性的方法是强化学习,它需要大量的失败经验来训练智能体。虽然存在使用物理智能体的方法(Kalashnikov等人,2018),但使用物理智能体既耗时又昂贵。此外,在实际环境中进行训练往往不可行,因为在实际环境中的失败可能会带来危险(例如自动驾驶、水下航行器)。因此,使用模拟器来学习策略是一种常见的方法。
许多模拟平台已被提出用于具身人工智能的研究,涵盖从导航(Tsoi等人,2022;Deitke等人,2020;Kolve等人,2017)到对象操作(Wang等人,2023d;Mees等人,2022;Yang等人,2023a;Ehsani等人,2021)等领域。一个例子是Habitat(Savva等人,2019;Szot等人,2021),它提供了一个3D室内环境,人类和机器人智能体可以在其中执行各种任务,如导航、指令跟随和问答。另一个具有代表性的模拟平台是VirtualHome(Puig等人,2018),它支持人类化身在3D室内环境中进行对象操作。在游戏领域,Carroll等人引入了 “Overcooked-AI”,这是一个用于研究人类与人工智能之间协作任务的基准环境(Carroll等人,2019)。类似地,一些工作旨在纳入真实的人类干预,超越智能体与环境之间的交互重点(Puig等人,2023;Li等人,2021a;Srivastava等人,2022)。这些模拟器有助于在涉及智能体和机器人交互的实际场景中学习策略,以及利用人类示范动作的基于模仿学习的策略学习。
在某些场景中,学习策略的过程可能需要在模拟器中集成特定的功能。例如,在学习基于图像的策略时,通常需要逼真的渲染来促进对现实环境的适应性(Mittal等人,2023;Zhong等人,2023)。使用逼真的渲染引擎可以有效地生成反映各种条件(如光照环境)的图像。此外,采用物理引擎的模拟器对于模拟与物体的物理交互是必要的(Liu和Negrut,2021)。在模拟中集成物理引擎已被证明有助于获取适用于现实世界场景的技能(Saito等人,2023)。
5.4 生成式智能体
大型生成式人工智能模型领域的最新进展,有可能大大降低目前交互式内容所需的高昂成本和时间,这对大型游戏工作室以及较小的独立工作室都有益处,使它们能够创造出超出当前能力的高质量体验。此外,将大型人工智能模型嵌入沙盒环境中,将允许用户创作自己的体验,并以目前无法实现的方式表达他们的创造力。
这类智能体的目标不仅限于为场景添加交互式3D内容,还包括:
-
• 为对象添加任意行为和交互规则,允许用户在极少提示的情况下创建自己的虚拟现实规则。
-
• 通过使用多模态GPT4-v模型以及其他涉及视觉人工智能模型的模型链,根据纸上的草图生成整个关卡的几何形状。
-
• 使用扩散模型对场景中的内容进行重新纹理处理。
-
• 根据简单的用户提示创建自定义着色器和视觉特效。
短期内的一个潜在应用是,通过虚拟现实创建故事板/原型工具,使单个用户能够以比目前快一个数量级的速度创建体验/游戏的粗略(但功能完备)草图。然后,可以使用这些工具对该原型进行扩展和完善。
5.4.1 增强现实/虚拟现实/混合现实智能体
目前,增强现实/虚拟现实/混合现实(统称为XR)场景需要熟练的艺术家和动画师来创建用于模拟虚拟世界中交互的角色、环境和对象。这是一个成本高昂的过程,涉及概念艺术、3D建模、纹理处理、绑定和动画制作。XR智能体可以通过促进创作者之间的交互以及构建工具来帮助构建最终的虚拟环境,从而在这个过程中提供帮助。
我们早期的实验已经证明,GPT模型可以在Unity引擎中以少样本方式使用(无需任何额外的微调),以调用引擎特定的方法、使用API调用从互联网下载3D模型并将其放置在场景中,以及为它们分配行为和动画的状态树(Huang等人,2023a)。这种行为可能是由于在使用Unity的开源游戏存储库中存在类似代码而产生的。因此,GPT模型能够根据简单的用户提示在场景中加载许多对象,从而构建丰富的视觉场景。
这类智能体的目标是构建一个平台和一组工具,在大型人工智能模型(包括GPT系列模型以及扩散图像模型)和渲染引擎之间提供高效的接口。我们在这里探索两条主要途径:
-
• 将大型模型集成到智能体基础设施的各种编辑器工具中,从而显著加快开发速度。
-
• 通过生成遵循用户指令的代码并在运行时进行编译,在用户体验中控制渲染引擎,这可能允许用户以任意方式编辑他们正在交互的虚拟现实/模拟环境,甚至引入新的智能体机制。
引入专注于XR场景的人工智能协作者对XR创作者很有用,他们可以使用该协作者来完成繁琐的任务,如提供简单的资产或编写代码模板,使创作者能够专注于他们的创意愿景并快速迭代想法。
此外,智能体可以帮助用户通过添加新资产、改变环境动态或构建新设置来交互式地修改环境。这种在运行时的动态生成也可以由创作者指定,使用户的体验感觉新鲜并随着时间不断发展。
5.5 知识和逻辑推理智能体
推理和应用知识的能力是人类认知的一个决定性特征,在诸如逻辑演绎和理解心理理论等复杂任务中尤为明显。对知识进行推理可确保人工智能的响应和行动与已知事实和逻辑原则一致。这种一致性是在人工智能系统中维持信任和可靠性的关键机制,特别是在医疗诊断或法律分析等关键应用中。在这里,我们介绍结合知识与推理,以解决智能和推理特定方面的智能体。
5.5.1 知识智能体
知识智能体在两个方向上对其获取的知识系统进行推理:隐式和显式。隐式知识通常是像GPT系列这样的大规模语言模型(Brown等人,2020;OpenAI,2023)在经过大量文本数据训练后所包含的知识。这些模型可以生成给人理解印象的响应,因为它们利用了在训练过程中隐式学习到的模式和信息。相反,显式知识是结构化的,可以直接查询,例如在知识库或数据库中找到的信息,传统上通过引用可验证的外部资源来增强人工智能的推理能力。
尽管语言模型取得了进展,但它们的隐式知识是静态的,并且随着世界的发展而过时(Lewis等人,2020;Peng等人,2023)。这种限制使得有必要集成不断更新的显式知识源,以确保人工智能系统能够提供准确和最新的响应。隐式和显式知识的融合使人工智能智能体具有更细致入微的理解,并能够根据上下文应用知识,类似于人类智能(Gao等人,2022)。这种集成对于构建以知识为中心的人工智能智能体至关重要,这些智能体不仅拥有信息,还能够理解、解释和运用信息,从而缩小广泛学习与深刻知识之间的差距(Marcus和Davis,2019;Gao等人,2020)。这些智能体被设计为灵活地对关于世界的动态信息进行推理,增强了它们的稳健性和适应性(Marcus,2020)。
5.5.2 逻辑智能体
一般来说,逻辑智能体是系统的一个组件,旨在应用逻辑推理来处理数据或解决特定于逻辑推理的任务。在像GPT-4这样的大型基础模型的背景下,逻辑智能体是指专门设计用于处理逻辑推理任务的组件或子模块。这些任务通常涉及理解和处理抽象概念、从给定前提中推导结论,或解决需要结构化、逻辑方法的问题。广义地说,像GPT-4这样的基础模型在大量文本数据上进行训练,并学习执行广泛的任务,包括那些需要某种形式逻辑推理的任务。因此,它们的逻辑推理能力集成在整体架构中,通常没有一个明显独立的 “逻辑智能体”。虽然GPT-4和类似模型可以执行涉及逻辑的任务,但它们的方法与人类或传统基于逻辑的系统有根本的不同。它们不遵循形式逻辑规则,也没有对逻辑的明确理解;相反,它们根据从训练数据中学到的模式生成响应。因此,它们在逻辑任务中的表现可能令人印象深刻,但也可能因训练数据的性质和模型设计的固有局限性而不一致或受限。一个在架构中嵌入单独逻辑子模块的例子是(Wang等人,2023e),它在预训练期间修改大语言模型使用的令牌嵌入过程,通过将文本解析为逻辑片段并在令牌嵌入中显式建模逻辑层次结构。
5.5.3 情感推理智能体
在许多人机交互中,情感理解和同理心是智能体的重要技能。例如,创建引人入胜的对话智能体的一个重要目标是使智能体在行动中表现出更多的情感和同理心,同时尽量减少社会上不适当或冒犯性的输出。为了朝着这个目标前进,我们发布了带有同理心的神经图像评论(NICE)数据集(Chen等人,2021),其中包含近两百万张图像以及相应的人类生成的评论和一组人类情感注释。我们还提供了一种新颖的预训练模型——用于图像评论的情感生成建模(MAGIC)(Chen等人,2021),其目的是根据捕捉风格和情感的语言表示为图像生成评论,并帮助生成更具同理心、情感、吸引力和社会适宜性的评论。我们的实验表明,这种方法在训练更像人类且更具吸引力的图像评论智能体方面是有效的。开发具有同理心的智能体是交互式智能体的一个有前途的方向,并且在广泛的群体和人群中创建具有情感理解能力的智能体非常重要,特别是考虑到许多当前的语言模型在情感理解和同理心推理能力方面存在偏差(Mao等人,2022;Wake等人,2023d)。
5.5.4 神经符号智能体
神经符号智能体在神经元和符号的混合系统上运行(d’Avila Garcez和Lamb,2020)。用自然语言解决问题是一项具有挑战性的任务,因为它需要明确捕捉输入中隐含的离散符号结构信息。然而,大多数通用神经序列模型并没有明确捕捉这种结构信息,这限制了它们在这些任务上的性能。(Chen等人,2020)的工作提出了一种基于结构化神经表示智能体的新编码器 - 解码器模型,TP-N2F的编码器使用TPR “绑定” 在向量空间中编码自然语言符号结构,解码器使用TPR “解绑” 在符号空间中生成由关系元组表示的顺序程序,每个关系元组由一个关系(或操作)和多个参数组成。
像GPT-4这样的指令跟随视觉语言模型提供了一个灵活的接口,支持以零样本方式执行广泛的多模态任务。然而,在全图像上操作的接口并不能直接让用户 “指向” 并访问图像中的特定区域。这种能力不仅对于支持基于参考的视觉语言基准测试很重要,而且对于需要精确图像内推理的实际应用也很重要。在(Park等人,2023b)中,我们构建了局部化视觉常识模型,允许用户指定(多个)区域作为输入。我们通过从大型语言模型中采样局部化常识知识来训练我们的模型:具体来说,我们提示大型语言模型根据全局文字图像描述和由一组视觉语言模型自动生成的局部文字区域描述来收集常识知识。这个管道是可扩展的且完全自动化的,因为不需要对齐的或人工编写的图像和文本对。通过单独训练一个选择高质量示例的评论家模型,我们发现仅从图像扩展的局部化常识语料库上进行训练,可以成功地提炼现有的视觉语言模型,以支持参考作为输入的接口。在零样本设置下的实证结果和人类评估表明,与通过生成引用表达式的基线相比,我们的蒸馏方法产生了更精确的视觉语言推理模型。
5.6 大语言模型和视觉语言模型智能体
许多研究利用大语言模型作为智能体来执行任务规划(Huang等人,2022a;Wang等人,2023b;Yao等人,2023a;Li等人,2023a),并利用大语言模型在互联网规模的领域知识和零样本规划能力来执行诸如规划和推理等智能体任务。最近的机器人研究也利用大语言模型进行任务规划(Ahn等人,2022a;Huang等人,2022b;Liang等人,2022),通过将自然语言指令分解为一系列子任务,这些子任务可以是自然语言形式,也可以是Python代码形式,然后使用低级控制器来执行这些子任务。此外,(Huang等人,2022b)、(Liang等人,2022)和(Wang等人,2023a)还结合环境反馈来提高任务性能。也有许多研究表明,在大规模文本、图像和视频数据上训练的通用视觉对齐大语言模型,有能力作为创建能够在各种环境中具身行动的多模态智能体的基础(Baker等人,2022;Driess等人,2023;Brohan等人,2023 )。
6. 智能体人工智能应用任务
6.1 游戏中的智能体
游戏为测试大语言模型和视觉语言模型的智能体行为提供了独特的 “沙盒” 环境,推动了它们在协作和决策能力方面的边界。我们特别描述了三个领域,突出展示了智能体与人类玩家和其他智能体交互的能力,以及它们在环境中采取有意义行动的能力。
6.1.1 非玩家角色(NPC)行为
在现代游戏系统中,非玩家角色(NPC)的行为主要由开发者编写的预定义脚本决定。这些脚本涵盖了基于游戏环境中各种触发器或玩家动作的一系列反应和交互。然而,这种脚本化的性质往往导致NPC行为可预测或重复,无法根据玩家的动作或游戏的动态环境进行演变。这种僵化性阻碍了动态游戏环境中预期的沉浸式体验。因此,人们对利用大语言模型赋予NPC自主性和适应性的兴趣日益浓厚,使交互更加细致入微和引人入胜。由人工智能驱动的NPC可以从玩家行为中学习,适应不同的策略,并提供更具挑战性、更不可预测的游戏体验。大语言模型可以显著促进游戏中NPC行为的演变。通过处理大量文本,大语言模型可以学习模式并生成更多样化、更像人类的响应。它们可用于创建动态对话系统,使与NPC的交互更具吸引力,减少可预测性。此外,大语言模型可以根据玩家反馈和游戏内数据进行训练,不断优化NPC的行为,使其更符合玩家的期望和游戏动态。
6.1.2 人机NPC交互
人类玩家与NPC之间的交互是游戏体验的关键方面。传统的交互模式主要是单向的,NPC以预设的方式对玩家输入做出反应。这种限制抑制了在虚拟领域中实现更自然、更丰富交互(类似于人与人之间的交互)的潜力。大语言模型和视觉语言模型技术的出现有望改变这种模式。通过采用这些技术,游戏系统可以分析和学习人类行为,提供更像人类的交互。这不仅增强了游戏的真实感和吸引力,还为在可控但复杂的环境中探索和理解人机交互提供了平台。
6.1.3 基于智能体的游戏分析
游戏是日常生活的重要组成部分,据估计全球有一半人口参与其中 。此外,游戏对心理健康也有积极影响 。然而,当代游戏系统在与人类玩家的交互方面存在不足,因为它们的行为主要由游戏开发者手工编写。这些预编程的行为往往无法适应玩家的需求。因此,游戏中需要新的人工智能系统,能够分析玩家行为并在必要时提供适当的支持。智能交互系统有可能彻底改变玩家与游戏系统的交互方式。NPC与玩家的交互不再受限于游戏开发者设计的有限规则集。它们有潜力无缝适应玩家的体验,提供及时反馈,丰富游戏体验,提升人机交互的协同效应。
大语言模型可以作为分析游戏内文本数据(包括聊天记录、玩家反馈和叙事内容)的强大工具。它们可以帮助识别玩家行为、偏好和交互的模式,这对于游戏开发者改进游戏机制和叙事非常有价值。此外,视觉语言模型可以解析游戏会话中的大量图像和视频数据,帮助分析玩家在游戏世界中的意图和动作。而且,大语言模型和视觉语言模型可以促进游戏中智能体的开发,这些智能体能够以复杂、类似人类的方式与玩家和其他智能体进行交流,提升整体游戏体验。除了大语言模型和视觉语言模型,用户输入数据也为创建游戏玩家智能体提供了有前景的途径,这些智能体通过模仿人类玩家来模拟感知、游戏玩法和游戏理解。通过结合玩家交互和反馈、像素输入以及自然语言规划和理解,智能体模型可以帮助持续改进游戏动态,推动游戏环境向以玩家为中心的方向发展。
6.1.4 游戏场景合成
场景合成是创建和增强沉浸式游戏环境的重要组成部分。它涉及在游戏中自动或半自动生成三维(3D)场景和环境,包括地形生成、物体放置、逼真光照创建,有时甚至还包括动态天气系统。
现代游戏通常具有广阔的开放世界环境。手动设计这些景观可能非常耗时且资源密集。自动化地形生成通常利用程序化或人工智能驱动的技术,可以用较少的人工努力生成复杂、逼真的景观。大语言模型和视觉语言模型可以利用互联网规模的知识制定规则,设计视觉上令人印象深刻且独特的非重复景观。此外,大语言模型和视觉语言模型可用于确保生成资产的语义一致性和多样性。在场景中以逼真且美观的方式放置建筑物、植被和其他元素对于沉浸感至关重要。
视觉语言模型和大语言模型可以通过遵循预定义或学习到的规则和美学原则来辅助物体放置,从而加快关卡设计过程。视觉语言模型和大语言模型还可以进一步训练以理解设计和美学原则,有助于程序化生成内容。它们可以帮助制定程序化算法可以遵循的规则或指南,以生成既视觉吸引人又符合上下文的物体和场景。
逼真的光照和大气效果是创建可信且引人入胜的游戏环境的基础。先进的算法可以模拟自然光照条件和动态天气效果,增强场景的真实感和氛围。大语言模型可以通过多种创新方式帮助开发更逼真的光照和大气效果系统。视觉语言模型可以分析来自现实世界光照和大气条件的大量数据集,帮助开发更逼真的算法来模拟游戏中的这些效果。通过理解自然光照和天气的模式和细节,这些模型可以为开发模仿现实的算法做出贡献。大语言模型和视觉语言模型还可用于开发根据玩家动作、游戏状态或外部输入实时调整光照和大气效果的系统。它们可以处理玩家的自然语言命令来修改游戏环境,提供更具交互性和沉浸感的体验。
6.1.5 实验与结果

-
• 大语言模型或视觉语言模型的零样本/少样本学习:如图8和图9所示,我们使用GPT-4V进行高级描述和动作预测。图8展示了一些使用GPT-4V生成动作描述和编辑的定性示例。智能体增强文本为利用游戏动作先验生成3D场景开辟了一种新方法,有助于提高场景的自然度。因此,GPT-4V生成的相关高级描述适合游戏视频。
-

-
• 小型智能体预训练模型:为了展示我们的智能体视觉语言架构,我们首先研究其在游戏智能体广泛应用领域中的应用,在Minecraft数据上进行预训练。如图7所示,给定一个输入动作智能体、视频关键帧和相应文本,可使用标准编码器 - 解码器将智能体动作和图像转换为动作文本令牌和图像补丁令牌,然后使用智能体 - 视觉 - 语言解码器将其转换为动作预测句子。整体架构如图7所示。我们用几个Minecraft演示来评估我们的方法。Minecraft视频数据由5分钟的片段组成,我们用于预训练的数据包含78K个视频,我们在第一轮预训练中使用了5K个视频(占预训练数据的6%)。我们在16个NVIDIA v100 GPU上训练一个250M参数的模型一天,并在图10和图11中可视化我们的模型输出。图10表明,我们相对较小的智能体架构可以为训练期间未见过的Minecraft场景产生合理的输出。图11展示了模型预测与实际人类玩家动作的对比,表明我们的小型智能体模型具有潜在的低级理解能力。
-


-
• 多智能体基础设施:如图5的智能体范式所示,我们为一个名为 “CuisineWorld” 的新游戏场景设计了一种新颖的基础设施(Gong等人,2023a)。我们在图12中详细介绍了我们的方法。我们的基础设施通过利用GPT-4作为中央规划器实现多智能体协作,并适用于多个游戏领域。我们研究了我们系统的多智能体规划能力,并将该基础设施部署到现实世界的视频游戏中,以展示其多智能体和人机协作的有效性。此外,我们提出了 “Cuisineworld”,这是一个基于文本的多智能体协作基准,提供了一种新的自动度量协作得分(CoS)来量化协作效率。有关游戏描述、高级动作预测和GPT-4V提示的更多示例和详细信息,请参阅附录。我们在图32和附录B中展示了《血腥边缘》的示例,在图33和附录C中展示了《微软飞行模拟器》的示例,在图34和附录D中展示了《刺客信条:奥德赛》的示例,在图35和附录E中展示了《战争机器4》的示例,在图36和附录F中展示了《星空》的示例。我们还在附录A中的图31中提供了用于生成Minecraft示例的GPT4V提示过程的详细截图。
-

6.2 机器人技术
机器人是需要与环境进行有效交互的代表性智能体。在本节中,我们将介绍高效机器人操作的关键要素,回顾应用最新大语言模型/视觉语言模型技术的研究主题,并分享我们最新研究的成果。
-
• 视觉运动控制:视觉运动控制指的是在机器人系统中集成视觉感知和运动动作,以有效地执行任务。这种集成至关重要,因为它使机器人能够解释来自环境的视觉数据,并相应地调整其运动动作,以准确地与环境进行交互。例如,在装配线上,配备视觉运动控制的机器人可以感知物体的位置和方向,并精确地对齐其操纵器以与这些物体进行交互。这种能力对于确保机器人操作在从工业自动化到协助老年人日常生活等众多应用中的精度和有效性至关重要。此外,视觉运动控制有助于机器人适应动态环境,在这种环境中,环境状态可能迅速变化,需要根据视觉反馈实时调整运动动作。
此外,在安全操作的背景下,视觉信息对于检测执行错误以及确认每个机器人动作的前置和后置条件至关重要。在不受控制的环境中,如未知的家庭环境,机器人更有可能面临由于不可预测因素(如家具形状变化、光照变化和滑动)导致的意外结果。在这些环境中,仅以前馈方式执行预规划的动作计划可能会带来重大风险。因此,利用视觉反馈在每个步骤中持续验证结果是确保机器人系统稳健可靠运行的关键。
-
• 语言条件操作:语言条件操作指的是机器人系统根据语言指令解释和执行任务的能力。这对于创建直观且用户友好的人机交互界面尤为关键。通过自然语言命令,用户可以以类似于人与人交流的方式向机器人指定目标和任务,从而降低操作机器人系统的门槛。在实际场景中,例如,用户可以指示服务机器人 “从桌子上拿起红色苹果”,机器人将解析该指令,识别所提及的物体并执行拿起它的任务(Wake等人,2023c)。核心挑战在于开发强大的自然语言处理和理解算法,能够准确解释从直接命令到更抽象指令的各种指令,并使机器人能够将这些指令转换为可执行的任务。此外,确保机器人能够在不同任务和环境中泛化这些指令,对于提高其在现实世界应用中的多功能性和实用性至关重要。在一个名为任务和运动规划(Garrett等人,2021)的机器人框架中,使用语言输入来指导机器人的任务规划受到了关注。
-
• 技能优化:最近的研究强调了大语言模型在机器人任务规划中的有效性。然而,任务的最佳执行,特别是那些涉及物理交互(如抓取)的任务,需要对环境有更深入的理解,这超出了简单地解释人类指令的范畴。例如,机器人抓取需要精确的接触点(Wake等人,2023e)和手臂姿势(Sasabuchi等人,2021),以有效地执行后续动作。
虽然这些要素(精确的接触点和手臂姿势)对人类来说是直观的,但通过语言表达它们却具有挑战性。尽管互联网规模的视觉语言模型取得了进展,但从场景中捕捉这些微妙的间接线索并将其有效地转化为机器人技能仍然是一个重大挑战。作为回应,机器人学界越来越关注收集增强数据集(例如,Wang等人,2023d;Padalkar等人,2023)或开发从人类演示中直接获取技能的方法(Wake等人,2021a)。包括从演示中学习和模仿学习在内的框架引领了这些发展,在物理技能优化中发挥着关键作用。
6.2.1 机器人领域的大语言模型/视觉语言模型智能体
最近的研究展示了大语言模型/视觉语言模型在涉及与人类在环境中交互的机器人智能体方面的潜力。旨在利用最新大语言模型/视觉语言模型技术的研究主题包括:
-
• 多模态系统:最近的研究积极专注于开发端到端系统,将最新的大语言模型和视觉语言模型技术作为输入信息的编码器。特别是,有一种显著的趋势是修改这些基础模型以处理多模态信息(Jiang等人,2022;Brohan等人,2023,2022;Li等人,2023d;Ahn等人,2022b;Shah等人,2023b;Li等人,2023e)。这种改编旨在基于语言指令和视觉线索来指导机器人动作,从而实现有效的具身化。
-
• 任务规划和技能训练:与端到端系统不同,基于任务和运动规划(TAMP)的系统首先计算高级任务计划,然后通过低级机器人控制(即技能)来实现这些计划。
大语言模型先进的语言处理能力展示了其解释指令并将其分解为机器人动作步骤的能力,极大地推动了任务规划技术的发展(Ni等人,2023;Li等人,2023b;Parakh等人,2023;Wake等人,2023c)。对于技能训练,一些研究探索了使用大语言模型/视觉语言模型来设计奖励函数(Yu等人,2023a;Katara等人,2023;Ma等人,2023)、生成数据以促进策略学习(Kumar等人,2023;Du等人,2023),或作为奖励函数的一部分(Sontakke等人,2023)。与强化学习和模仿学习等训练框架一起,这些努力将有助于开发高效的机器人控制器。
-
• 现场优化:由于不可预测的环境条件,在机器人技术中执行长时间的任务步骤可能很困难。因此,机器人领域的一个重大挑战是通过将任务计划与实时环境数据集成来动态调整和优化机器人技能。例如,(Ahn等人,2022b)提出了一种方法,该方法从视觉信息计算动作的可行性(即可用性),并将其与计划任务进行比较。此外,还有一些方法专注于使大语言模型能够输出任务步骤的前置条件和后置条件(例如,物体的状态及其相互关系),以优化其执行(Zhou等人,2023c),并检测前置条件错误以对任务计划进行必要的修订(Raman等人,2023)。这些策略旨在通过集成环境信息并在任务计划或控制器级别调整机器人的动作,实现基于环境的机器人执行。
-
• 对话智能体:在创建对话机器人时,大语言模型有助于与人类进行自然、上下文敏感的交互(Ye等人,2023a;Wake等人,2023f)。这些模型处理和生成模仿人类对话的响应,使机器人能够参与有意义的对话。此外,大语言模型在估计话语的概念(Hensel等人,2023;Teshima等人,2022)和情感属性(Zhao等人,2023;Yang等人,2023b;Wake等人,2023d)方面发挥着重要作用。这些属性有助于理解人类意图和生成有意义的手势,从而提高人机通信的自然性和有效性。
-
• 导航智能体:机器人导航有着悠久的研究历史,专注于基于地图的路径规划和同时定位与地图构建(SLAM)等核心方面,以创建环境地图。这些功能已成为广泛使用的机器人中间件(如机器人操作系统(ROS)(Guimarães等人,2016))的标准。
虽然经典导航技术在许多机器人应用中仍然普遍存在,但它们通常依赖于静态或预先创建的地图。最近,人们对先进技术的兴趣日益增加,这些技术使机器人能够利用计算机视觉和自然语言处理领域的突破在更具挑战性的环境中导航。一个代表性的任务是对象导航(Chaplot等人,2020a;Batra等人,2020;Gervet等人,2023;Ramakrishnan等人,2022;Zhang等人,2021),其中机器人使用对象名称而不是地图坐标进行导航,这需要在环境中对对象名称进行视觉定位。此外,最近人们关注的焦点是在基础模型之上,使机器人能够在全新的、完全不熟悉的环境中进行零样本导航的技术,即所谓的零样本对象导航(Gadre等人,2023;Dorbala等人,2023;Cai等人,2023)。此外,视觉语言导航(VLN)(Anderson等人,2018a)是一个代表性任务,该任务涉及在以前未见过的现实世界环境中,根据自然语言指令导航智能体(Shah等人,2023a;Zhou等人,2023a;Dorbala等人,2022;Liang等人,2023;Huang等人,2023b)。视觉语言导航解释句子而不是对象名称,例如 “去你左边的浴室”,因此它需要更高的功能来解析输入文本(Wang等人,2019)。
基础模型的出现有助于开发这种自适应、即时的导航技术,因为它增强了对人类语言指令的理解以及对环境信息的视觉解释能力。在6.2.2节中,将对代表性的视觉语言导航研究进行更详细的解释。
6.2.2 实验与结果
越来越多的证据表明,最近的视觉语言模型和大语言模型在符号任务规划(例如,做什么)方面具有有前景的能力。然而,每个任务都需要低级控制策略(例如,怎么做),以实现与环境的成功交互。虽然强化学习和模仿学习是以数据驱动的方式学习策略的有前景的方法,但另一种有前景的方法是通过现场演示直接从人类那里获取策略,这种方法称为观察学习(Wake等人,2021a;Ikeuchi等人,0)。在本节中,我们介绍一项研究,在该研究中,我们使用ChatGPT进行任务规划,并通过用可用性信息对计划进行参数化来丰富计划,以促进有效和精确的执行(图13)。

该流程由两个模块组成:任务规划和参数化。在任务规划中,系统接收语言指令和工作环境的描述。这些指令与一组预定义的机器人动作和输出规范一起,被编译成一个全面的提示提供给ChatGPT,然后ChatGPT生成一系列分解的任务及其文本描述(图13;左窗格)。值得注意的是,我们采用少样本方法,这意味着ChatGPT没有在这个任务上进行训练,这在适用性方面具有优势,因为它消除了对依赖硬件的数据收集和模型训练的需求。此外,输出中的文本描述允许用户检查并在必要时调整结果,这对于安全和稳健的操作是一个关键特征。图14展示了在VirtualHome(Puig等人,2018)上进行的智能体模拟的定性结果。结果展示了合理的任务计划及其在调整输出方面的灵活性,表明了我们方法的广泛适用性。

虽然任务规划器保证了任务序列之间的一致性,但在现实中成功操作需要详细的参数。例如,抓取类型对于搬运容器而不洒出内容物至关重要,而在模拟器中这种参数常常被忽略(见图14中抓取馅饼的情况)。因此,在我们的机器人系统中,用户需要直观地演示每个动作(图13;右窗格)。这些任务具有执行所需的预定义参数,我们的视觉系统从视频中提取这些参数(Wake等人,2021b)。值得注意的是,我们的机器人系统不是为了精确复制人类动作(即远程操作)而设计的,而是为了处理现实世界中的各种条件,例如物体位置的变化。因此,从人类演示中提取的参数不包括精确的运动路径,而是包含决定有效环境运动的可用性信息(例如,避障的路标点(Wake等人,2023a)、抓取类型(Wake等人,2023e)和上肢姿势(Sasabuchi等人,2021;Wake等人,2021a))。上肢的姿势在具有高自由度的机器人中至关重要,其设计目的是为与操作机器人共存的人类呈现可预测的姿势。赋予可用性的任务序列被转换为通过强化学习获得的可重用机器人技能序列,并由机器人执行(Takamatsu等人,2022)。

通过将大语言模型驱动的任务规划与视觉语言模型相结合,可以将其扩展到更通用的机器人系统。在这里,我们展示一个例子,我们使用GPT-4V(ision)在多模态输入的背景下扩展上述任务规划器(图15),人类执行的动作旨在由机器人复制。在本文中,仅展示了部分提示。完整的提示可在microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts上获取。这个流程接收演示视频和文本,然后输出一系列机器人动作。视觉分析器旨在理解视频中人类执行的动作。我们使用GPT-4V并提供一个提示,以生成类似于人与人交流风格的文本指令。图16展示了文本输入如何允许用户对GPT-4V的识别结果提供反馈以进行修正。这个功能旨在提高识别结果的准确性,同时也使操作更加稳健。

接下来,场景分析器根据指令和视频数据的第一帧(或环境图像)将预期的工作环境编译成文本信息。这些环境信息包括GPT-4V识别的对象名称列表、对象的可抓取属性以及对象之间的空间关系。尽管这些计算过程在GPT-4V中是一个黑盒,但信息是基于GPT-4V的知识和图像/文本输入输出的。图17展示了我们场景分析器的示例输出。如图所示,GPT-4V成功选择了与操作相关的对象。例如,当人类重新定位桌子上的垃圾容器时,输出中包括桌子,而对于打开冰箱门的任务,桌子则被忽略。这些结果表明,场景分析器根据人类的动作对场景信息进行了编码。我们提示GPT-4V解释对象选择过程的结果以及这些选择背后的原因。在实践中,我们发现这种方法产生了合理的输出。最后,基于给定的文本指令和环境信息,任务规划器输出一系列任务(Wake等人,2023c)。

-
• 机器人导航的具身智能体:视觉语言导航(VLN)是指在真实3D环境中导航具身智能体以执行自然语言指令的任务。在3D环境中导航(Zhu等人,2017a;Mirowski等人,2016;Mousavian等人,2018;Hemachandra等人,2015)是在物理世界中运行的移动智能系统的一项基本能力。在过去几年中,已经提出了大量的任务和评估协议(Savva等人,2017;Kolve等人,2017;Song等人,2017;Xia等人,2018;Anderson等人,2018a),如(Anderson等人,2018b)中所总结。视觉语言导航(Anderson等人,2018a)专注于真实3D环境中基于语言的导航。为了解决视觉语言导航任务,(Anderson等人,2018a)建立了一个基于注意力的序列到序列基线模型。然后(Wang等人,2018)引入了一种混合方法,结合了无模型和基于模型的强化学习(RL)来提高模型的泛化能力。最后,(Fried等人,2018)提出了一种说话者 - 跟随者模型,该模型采用数据增强、全景动作空间和修改后的束搜索用于视觉语言导航,在Room-to-Room数据集上建立了当前的最先进性能。在先前工作的基础上,我们在(Wang等人,2019)中提出了用于视觉语言导航的强化跨模态匹配(RCM)。RCM模型基于(Fried等人,2018)构建,但在许多重要方面有所不同:(1)RCM结合了一种新颖的多奖励RL和模仿学习用于视觉语言导航,而说话者 - 跟随者模型(Fried等人,2018)仅像(Anderson等人,2018a)中那样使用监督学习。(2)RCM推理导航器执行跨模态定位,而不是对单模态输入使用时间注意力机制。(3)RCM匹配评论家在架构设计上与说话者类似,但前者用于为RL和自监督模仿学习(SIL)训练提供循环重建内在奖励,而后者用于为监督学习扩充训练数据。在(Wang等人,2019)中,我们研究了如何解决该任务的三个关键挑战:跨模态定位、不适定反馈和泛化问题。如图18所示,我们提出了一种新颖的强化跨模态匹配方法,通过强化学习在局部和全局层面强制跨模态定位。具体而言,一个匹配评论家用于提供内在奖励,以鼓励指令和轨迹之间的全局匹配,并且一个推理导航器用于在局部视觉场景中执行跨模态定位。在视觉语言导航基准数据集上的评估表明,我们的RCM模型在成功率加权的路径长度(SPL)上显著优于先前方法10%,并实现了新的最先进性能。为了提高学习到的策略的泛化能力,我们进一步引入了一种自监督模仿学习(SIL)方法,通过模仿自身过去的良好决策来探索未见环境。我们证明SIL可以逼近更好、更高效的策略,这极大地缩小了在见过和未见环境之间的成功率性能差距(从30.7%缩小到11.7%)。此外,在(Wang等人,2019)中,我们引入了一种自监督模仿学习方法用于探索,以明确解决泛化问题,这是先前工作中未充分研究的问题。与此同时,(Thomason等人,2018;Ke等人,2019;Ma等人,2019a,b)从各个方面研究了视觉语言导航任务,并且(Nguyen等人,2018)引入了视觉语言导航任务的一个变体,以便在需要时通过请求语言辅助来查找对象。值得注意的是,我们是第一个提出探索未见环境用于视觉语言导航任务的团队。
-

6.3 医疗保健
在医疗保健领域,大语言模型和视觉语言模型可以充当诊断智能体、患者护理助手,甚至治疗辅助工具,但它们也带来了独特的挑战和责任。虽然人工智能智能体在改善患者护理和拯救生命方面具有巨大潜力,但同样存在危险的可能性,即它们的滥用或仓促部署可能危及全球成千上万甚至数百万人的生命。我们讨论了在医疗保健背景下人工智能智能体的一些有前景的应用途径,同时也探讨了面临的一些关键挑战。
-
• 诊断智能体:最近,使用大语言模型作为医疗聊天机器人进行患者诊断引起了广泛关注,这是由于对医学专家的高需求以及大语言模型在帮助分诊和诊断患者方面的潜力(Lee等人,2023)。对话智能体,尤其是那些能够有效地向来自不同患者群体的广泛人群传达重要医疗信息的智能体,有潜力为历史上处于弱势或边缘化地位的群体提供公平的医疗保健服务。此外,世界各地的医生和医疗保健系统大多负担过重且资源不足,导致全球数亿人无法充分获得医疗服务(世界卫生组织和世界银行,2015)。诊断智能体为改善数百万人的医疗保健提供了一条特别有利的途径,因为它们可以被构建为能够理解多种语言、文化和健康状况。初步结果表明,可以利用大规模网络数据训练具有医疗知识的大型多模态模型(Li等人,2023f)。尽管这是一个令人兴奋的方向,但诊断智能体的前景并非没有风险。我们在以下部分强调医疗环境中幻觉的风险以及可能的解决方案途径。
-
• 知识检索智能体:在医疗背景下,模型幻觉尤其危险,根据错误的严重程度,甚至可能导致严重的患者伤害或死亡。例如,如果患者错误地收到表明他们没有实际患有的疾病的诊断,可能会导致灾难性后果。这些后果包括延迟或不适当的治疗,在某些情况下,甚至完全缺乏必要的医疗干预。未确诊或误诊疾病的严重性可能导致医疗费用增加、延长治疗导致进一步的身体负担,在极端情况下,还可能导致严重伤害甚至死亡。因此,能够使用智能体更可靠地检索知识(Peng等人,2023)或以基于检索的方式生成文本(Guu等人,2020)的方法是有前景的方向。将诊断智能体与医疗知识检索智能体配对,有可能显著减少幻觉,同时提高诊断对话智能体响应的质量和准确性。
-
• 远程医疗和远程监测:基于智能体的人工智能在远程医疗和远程监测领域也具有巨大潜力,它可以改善医疗保健的可及性,加强医疗保健提供者与患者之间的沟通,并提高频繁的医患互动的效率和降低成本(Amjad等人,2023)。初级保健临床医生花费大量时间筛选患者的信息、报告和电子邮件,其中许多信息对他们来说可能是无关或不必要的。支持智能体有很大的潜力帮助分诊来自医生、患者和其他医疗保健提供者的信息,并帮助突出对各方都重要的信息。通过使智能体人工智能系统能够与患者、临床医生和其他人工智能智能体协调,有巨大的潜力彻底改变远程医疗和数字健康行业。
6.3.1 当前医疗保健能力
-
• 图像理解:我们在图19中展示了现代多模态智能体(如GPT-4V)在医疗保健领域的当前能力和局限性。我们可以看到,尽管GPT-4V对医院护理中涉及的设备和程序具有丰富的内部知识,但它并不总是能响应用户更具规定性或诊断性的查询。
-

-
• 视频理解:我们在两种情况下研究视觉语言模型智能体对医学视频的理解性能。首先,我们研究视觉语言模型智能体识别临床空间中重要患者护理活动的能力。其次,我们探索视觉语言模型在更专业的视频(如超声波视频)中的应用。具体而言,在图20中,我们展示了GPT-4V在医院护理和医学视频分析方面的一些当前能力和局限性。
-

6.4 多模态智能体
视觉和语言理解的集成对于开发复杂的多模态人工智能智能体至关重要。这包括图像字幕、视觉问答、视频语言生成和视频理解等任务。我们旨在深入研究这些视觉语言任务,探索它们在人工智能智能体背景下带来的挑战和机遇。

6.4.1 图像 - 语言理解与生成
图像 - 语言理解是一项涉及用语言解释给定图像中的视觉内容,并生成相关语言描述的任务。这项任务对于开发能够以更像人类的方式与世界交互的人工智能智能体至关重要。一些最受欢迎的任务包括图像字幕(Lin等人,2014;Sharma等人,2018;Young等人,2014;Krishna等人,2016)、指代表达(Yu等人,2016;Karpathy等人,2014)和视觉问答(Antol等人,2015;Ren等人,2015;Singh等人,2019)。
最近,引入了需要大量知识的视觉问答任务,如OKVQA(Marino等人,2019)、KBVQA(Wang等人,2015)、FVQA(Wang等人,2017)和WebQA(Chang等人,2021)。多模态智能体应该能够识别图像中的对象,理解它们的空间关系,生成关于场景的准确描述性句子,并利用推理技能处理需要大量知识的视觉推理。这不仅需要对象识别能力,还需要对空间关系、视觉语义的深刻理解,以及将这些视觉元素与语言结构相映射并整合世界知识的能力。
6.4.2 视频与语言理解和生成
-
• 视频语言生成:视频字幕或视频故事生成是为视频帧流生成一系列连贯句子的任务。受在视频和语言任务中成功使用的循环大型基础模型的启发,由智能体驱动的增强模型的变体在视频语言生成任务中显示出有前景的结果。根本挑战在于,神经编码器 - 解码器模型的强大性能在视觉故事生成方面的泛化性不佳,因为该任务需要对每个图像的内容以及不同帧之间的关系有全面的理解。该领域的一个重要目标是创建一个具有智能体感知的文本合成模型,能够有效地编码帧序列并生成主题连贯的多句段落。
-
• 视频理解:视频理解将图像理解的范围扩展到动态视觉内容。这涉及对视频中的帧序列进行解释和推理,通常结合伴随的音频或文本信息。一个智能体应该能够与视觉、文本和音频等多种模态进行交互,以展示其对视频内容的高级理解。该领域的任务包括视频字幕、视频问答和活动识别等。视频理解中的挑战是多方面的,包括视觉和语言内容的时间对齐、长帧序列的处理以及对随时间展开的复杂活动的解释。关于音频,智能体可以处理口语单词、背景噪音、音乐和语音语调,以理解视频内容的情绪、场景和细微差别。
以前的工作主要集中在利用在线可用的现有视频 - 语言训练数据来建立视频基础模型(Li等人,2020,2021b;Fu等人,2022;Bain等人,2021;Zellers等人,2021,2022;Fu等人,2023)。然而,由于这些数据集的有限性和常常不一致的性质,支持这样的训练流程和功能是困难的。视频基础模型设计有掩码和对比预训练目标,然后在各自的任务上进行微调。尽管在多模态基准测试中显示出显著的结果,但这些模型在仅视频任务(如动作识别)中遇到困难,这是由于它们依赖于由嘈杂的音频转录构建的有限视频 - 文本数据。这种限制也导致了缺乏大型语言模型通常具有的稳健性和细粒度推理技能。
其他方法,类似于在图像 - 语言理解中使用的方法,利用大型语言模型的强大推理技能和广泛知识来改进视频解释的不同方面。像ChatGPT和GPT4这样的仅语言模型,或像GPT4-V这样的图像 - 语言模型,将音频、视频和语言模态视为可单独解释的输入数据类型,并将智能体定位为强大的开源模型,从而简化了视频理解任务。例如,(Huang等人,2023c;Li等人,2023g)通过使用开源视觉分类/检测/字幕模型将视频内容文本化,将视频理解转换为自然语言处理(NLP)问答形式。(Lin等人,2023)将GPT4-V与视觉、音频和语音领域的专业工具集成,以促进复杂的视频理解任务,如为长格式视频编写角色动作脚本。
并行研究探索从大型模型生成规模化数据集,然后在生成的数据上应用视觉指令调整(Liu等人,2023c;Li等人,2023c;Zhu等人,2023)。随后使用大量的音频、语音和视觉专家感知模型对视频进行语言化处理。使用自动语音识别工具转录语音,并使用各种标记、定位和字幕模型生成视频描述和相关数据(Li等人,2023g;Maaz等人,2023;Chen等人,2023;Wang等人,2023f)。这些生成的数据集经过处理和过滤,以确保其质量和相关性,然后用于训练和微调模型,以提高其在视频理解任务中的性能。
6.4.3 实验与结果
-
• 知识密集型模型:如INK(Park等人,2022)和KAT(Gui等人,2022a)中所介绍的,这是一种密集型神经知识任务,它整合了人类标注的所需知识,以支持知识密集型检索任务。
-
• 多模态智能体:人们对像Chameleon(Lu等人,2023)和MM-React(Yang等人,2023c)这样的多模态语言模型的兴趣日益浓厚。
-
• 视觉指令调整:VCL(Gui等人,2022b)、Mini-GPT4(Zhu等人,2023)、MPLUG-OWL(Ye等人,2023b)、LSKD(Park等人,2023c)生成图像级指令调整数据集。
-

知识密集型智能体。如图22和图23所示,基于知识的视觉问答和视觉语言检索任务是多模态机器学习中具有挑战性的任务,需要图像内容之外的外部知识。最近关于大规模Transformer的研究主要集中在最大化模型参数存储信息的效率上。而这一研究方向探索了不同的方面:多模态Transformer能否在其决策过程中使用显式知识。基于Transformer的预训练方法在隐式学习跨多种模态的知识表示方面取得了显著成功。然而,传统方法主要是单模态的,在研究知识检索和随后的答案预测时,引发了关于检索到的知识的质量和相关性,以及使用隐式和显式知识的推理过程的整合等问题。为了解决这些问题,我们引入了知识增强Transformer(KAT),它在2022年OK-VQA开放域多模态任务上的表现比其他模型高出6%。KAT使用编码器 - 解码器结构,将来自GPT3的隐式知识与来自网站的显式知识相结合,并在答案生成过程中允许对两种类型的知识进行并发推理。此外,纳入显式知识增强了模型预测的可解释性。代码和预训练模型可在https://github.com/guilk/KAT上获取。

视觉语言Transformer智能体。接下来,我们介绍 “基于图像字幕训练视觉语言Transformer”(VLC)模型(Gui等人,2022b),这是一种仅使用图像 - 字幕对进行预训练的Transformer。尽管VLC仅使用一个简单的线性投影层进行图像嵌入,但与其他依赖于对象检测器或监督式CNN/ViT网络的方法相比,它在各种视觉语言任务中都取得了有竞争力的结果。
通过广泛的分析,我们探索了VLC作为视觉语言Transformer智能体的潜力。例如,我们展示了VLC的视觉表示对于ImageNet-1K分类非常有效,并且我们的可视化结果证实VLC可以准确地将图像补丁与相应的文本标记匹配。随着更多训练数据的增加,性能的可扩展性凸显了开发大规模、弱监督、开放域视觉语言模型的广阔前景。
6.5 视频语言实验
为了探究将预训练的图像-大语言模型应用于视频理解的可行性,我们对InstructBLIP(戴等人,2023)进行了时间维度的扩展,并针对视频字幕生成任务对其进行了微调。具体而言,我们采用了与“Frozen in Time”(贝恩等人,2021)相同的时空注意力划分方案,对InstructBLIP(EVA-CLIP-G(孙等人,2023b))的视觉编码器进行了扩展,并且在训练过程中保持Q-former和大语言模型(Flan-T5-XL(钟等人,2022))处于冻结状态。在字幕训练期间,我们冻结视觉编码器的所有空间层,同时让时间层保持可训练状态。这使得我们的模型能够将图像和视频作为输入(且在图像层面的性能与InstructBLIP相当)。我们在WebVid10M(贝恩等人,2021)的500万个视频-字幕子集上进行了训练。我们在图25中展示了两个示例输出结果。然而,现有的智能体无法完全理解视频内容中精确、细微的视觉细节。视觉指令微调方法也存在类似的局限性,它们缺乏人类水平的通用感知能力,这仍然是多模态模型和智能体需要解决的问题。

经过指令微调的模型在准确总结视频中可见的动作,以及有效识别诸如“人坐在长椅上”这类动作方面显示出了潜力,如图25所示。然而,它们有时会添加不正确的细节,比如“人对着镜头微笑”,这揭示了在捕捉对话主题或视频氛围方面的不足,而这些元素对于人类观察者来说是比较容易察觉的。这些模型在处理复杂的视频内容时,难以准确把握其中的情感、意图和上下文信息,导致生成的字幕与实际内容存在偏差。

为了进一步提升模型在视频理解任务中的表现,我们考虑引入更多的辅助信息,例如视频的音频信号、场景的背景知识等。音频信息可以提供关于对话内容、环境声音和情感表达的重要线索,有助于模型更准确地理解视频的含义。同时,结合场景的背景知识,模型可以更好地理解视频中出现的物体、事件和行为的相关信息,从而生成更准确、更丰富的字幕。

我们还尝试了不同的模型架构和训练策略,以提高模型对视频内容的理解能力和生成质量。例如,采用更复杂的注意力机制来捕捉视频帧之间的时间和空间关系,或者使用多模态融合技术将视觉、语言和音频信息进行有机结合。此外,增加训练数据的多样性和规模,以及采用更精细的标注方法,也有助于提高模型的性能。

通过一系列的实验和改进,我们希望能够开发出更强大、更智能的视频语言模型,使其能够更好地满足实际应用中的需求,如视频内容的自动字幕生成、智能视频分析和交互式视频体验等。尽管目前取得了一些进展,但要实现与人类水平相当的视频理解能力,我们仍然面临着许多挑战,需要不断地进行探索和创新。
在未来的研究中,我们计划进一步深入研究如何提高模型的泛化能力,使其能够适应不同类型和风格的视频内容。同时,我们也将关注模型的可解释性,以便更好地理解模型的决策过程和性能表现。此外,与其他相关领域的结合,如虚拟现实、增强现实和智能机器人等,也将为视频语言模型的应用带来更多的可能性和机遇。
6.6 用于自然语言处理的智能体
自然语言处理(NLP)是人工智能智能体的一个关键领域,因为它使智能体能够理解、生成和与人类语言进行交互。在本节中,我们探讨了在自然语言处理任务中使用智能体的最新进展,以及它们面临的挑战和机遇。


6.6.1 语言理解和生成
语言理解是自然语言处理的基础,对于智能体来说,准确理解人类语言的含义至关重要。近年来,大语言模型(LLMs)在语言理解方面取得了显著进展,例如GPT系列模型。这些模型在大规模文本数据上进行预训练,能够捕捉语言的语法、语义和语用信息。
在智能体中集成大语言模型可以显著提高其语言理解能力。智能体可以利用这些模型来解析用户的指令、问题或陈述,并提取关键信息。例如,一个智能客服智能体可以使用大语言模型来理解客户的咨询,并提供相应的解决方案。
然而,语言理解仍然面临一些挑战。例如,语言具有多义性和模糊性,同一个词或句子在不同的上下文中可能有不同的含义。此外,语言还受到文化、领域和个人习惯的影响,这使得智能体需要具备一定的灵活性和适应性来处理各种语言表达。
语言生成是自然语言处理的另一个重要方面,它要求智能体能够生成自然、流畅和有意义的文本。大语言模型在语言生成方面也表现出色,能够生成各种类型的文本,如故事、摘要、对话等。
在智能体中,语言生成可以用于多种任务,如回答问题、提供建议、生成报告等。例如,一个写作辅助智能体可以根据用户的输入和要求,生成相应的文本内容。
然而,语言生成也存在一些问题。例如,生成的文本可能缺乏逻辑性、连贯性或准确性,或者可能存在重复、冗余或不恰当的表达。此外,大语言模型在生成文本时可能会出现“幻觉”现象,即生成与事实不符或没有意义的内容。
6.6.2 对话系统
对话系统是智能体在自然语言处理中的一个重要应用领域,它使智能体能够与用户进行交互式对话。对话系统可以分为任务型对话系统和闲聊型对话系统。
任务型对话系统旨在帮助用户完成特定的任务,如预订机票、查询信息、购买商品等。这些系统需要具备准确理解用户意图、提供相关信息和指导用户完成任务的能力。
在任务型对话系统中,智能体通常需要与其他系统或服务进行集成,以获取所需的信息或执行相应的操作。例如,一个旅游预订智能体可能需要与航空公司、酒店和旅行社的系统进行交互,以完成机票预订和酒店预订等任务。
闲聊型对话系统则主要用于与用户进行轻松的对话,提供娱乐、陪伴或情感支持等。这些系统需要具备良好的语言理解和生成能力,以及一定的情感识别和表达能力。
在闲聊型对话系统中,智能体需要能够理解用户的情感状态,并做出相应的回应。例如,当用户表达高兴或悲伤的情绪时,智能体可以给予相应的情感支持或回应。
然而,对话系统仍然面临一些挑战。例如,如何处理用户的不完整或模糊的输入,如何保持对话的连贯性和流畅性,以及如何避免对话陷入死循环或产生无意义的回答等。
6.6.3 知识图谱和推理
知识图谱是一种结构化的知识表示形式,它将实体、关系和属性以图形的方式进行表示。在自然语言处理中,知识图谱可以用于增强智能体的知识理解和推理能力。
智能体可以利用知识图谱来获取相关的知识和信息,进行知识推理和问答等任务。例如,当用户提出一个问题时,智能体可以通过查询知识图谱来找到相关的答案或信息。
此外,知识图谱还可以用于解决自然语言处理中的一些问题,如词义消歧、实体识别和关系抽取等。通过将自然语言文本与知识图谱进行匹配和映射,智能体可以更准确地理解文本的含义。
然而,知识图谱的构建和维护是一项复杂的任务,需要大量的人力和时间成本。此外,知识图谱中的知识也可能存在不完整、不准确或过时的情况,这会影响智能体的知识理解和推理能力。
推理是自然语言处理中的一个重要能力,它要求智能体能够根据已有的知识和信息进行逻辑推理和判断。在智能体中,推理可以用于解决各种问题,如回答问题、进行决策、提供建议等。
例如,当用户提出一个问题时,智能体可以通过推理来找到相关的答案或解决方案。推理可以基于规则、逻辑或机器学习算法等方法进行。
然而,推理也面临一些挑战。例如,如何处理不确定性和模糊性,如何进行有效的知识表示和推理算法的设计等。

6.6.4 实验与结果
我们进行了一系列实验来评估智能体在自然语言处理任务中的性能。实验包括语言理解、语言生成、对话系统和知识图谱推理等任务。
在语言理解实验中,我们使用了多种基准数据集来评估智能体对自然语言文本的理解能力。实验结果表明,集成大语言模型的智能体在语言理解任务中表现出色,能够准确地理解文本的含义。
在语言生成实验中,我们评估了智能体生成自然、流畅和有意义文本的能力。实验结果表明,虽然大语言模型在语言生成方面取得了显著进展,但仍然存在一些问题,如生成的文本缺乏逻辑性和准确性等。
在对话系统实验中,我们评估了智能体与用户进行交互式对话的能力。实验结果表明,任务型对话系统在完成特定任务方面表现良好,但在处理用户的不完整或模糊输入方面仍然存在挑战。闲聊型对话系统在情感识别和表达方面取得了一定进展,但在保持对话的连贯性和流畅性方面还需要进一步改进。
在知识图谱推理实验中,我们评估了智能体利用知识图谱进行知识推理和问答的能力。实验结果表明,知识图谱可以显著增强智能体的知识理解和推理能力,但知识图谱的不完整性和不准确性能会影响智能体的推理结果。
总体而言,实验结果表明智能体在自然语言处理任务中具有很大的潜力,但仍然面临一些挑战,需要进一步的研究和改进。未来的研究可以集中在提高智能体的语言理解和生成能力,改进对话系统的性能,以及优化知识图谱的构建和推理算法等方面。
7. 跨模态、领域和现实的智能体人工智能
智能体人工智能的一个重要目标是开发能够在多种模态、领域中运行,并弥合模拟与现实之间差距的通用智能体。这需要智能体能够处理不同类型的输入,如视觉、语言和音频信息,并在不同的环境中有效地执行任务,无论是虚拟的还是现实世界的。
7.1 跨模态智能体
跨模态智能体旨在整合和处理多种类型的信息,例如视觉、语言和音频数据,以实现更强大和灵活的智能行为。这些智能体面临的主要挑战之一是如何有效地融合来自不同模态的信息,以便进行准确的推理和决策。
在图像和语言的整合方面,当前的研究已经取得了显著进展,例如在图像字幕、视觉问答和指代表达理解等任务中。然而,要实现更高级的跨模态理解,仍然存在一些挑战。例如,理解图像中的视觉内容与相应语言描述之间的语义对齐,以及处理不同模态数据之间的时间和空间差异。
此外,将音频信息纳入跨模态智能体中也带来了新的机遇和挑战。音频数据可以提供关于环境、情感和动作的重要线索,但处理音频需要专门的技术和算法,如语音识别、音频分类和情感分析。有效地将音频信息与视觉和语言数据相结合,需要开发新的方法来融合这些不同类型的信息,并在统一的框架中进行处理。
为了应对这些挑战,研究人员正在探索各种方法,例如开发多模态Transformer架构,以更好地处理不同模态之间的交互;使用注意力机制来聚焦于不同模态中的重要信息;以及利用预训练模型来学习跨模态的表示。
7.2 跨领域智能体
跨领域智能体能够在不同的领域中执行任务,例如从游戏到机器人技术,再到医疗保健等。实现跨领域智能体的关键在于开发能够迁移知识和技能的方法,以便智能体能够在不同的领域中快速适应并有效地执行任务。
大语言模型和视觉语言模型在跨领域学习中具有很大的潜力。这些模型在大规模数据上进行预训练,学习到了丰富的通用知识和语言理解能力。通过微调或迁移学习,这些模型可以适应特定领域的任务和数据,从而在不同的领域中发挥作用。
例如,在机器人技术中,大语言模型可以用于任务规划和自然语言理解,而视觉语言模型可以用于视觉感知和目标识别。通过将这些模型与机器人的控制和执行系统相结合,可以实现更智能和灵活的机器人操作。
然而,跨领域学习也面临一些挑战。不同领域之间的数据分布和任务要求可能存在很大差异,这可能导致模型在迁移过程中出现性能下降的问题。此外,如何在不同领域中有效地整合和利用多种类型的知识和技能,也是一个需要解决的问题。
为了解决这些问题,研究人员正在探索各种方法,例如开发领域自适应技术,以调整模型在不同领域中的性能;使用多任务学习来同时学习多个领域的任务,从而提高模型的泛化能力;以及利用知识图谱等技术来整合和表示不同领域的知识。
7.3 弥合模拟与现实的差距
在智能体人工智能中,模拟环境是一种重要的工具,用于训练和测试智能体的行为。然而,模拟环境与现实世界之间存在一定的差距,这可能导致在模拟环境中训练的智能体在现实世界中表现不佳。
为了弥合模拟与现实的差距,研究人员正在探索各种方法。一种方法是开发更逼真的模拟环境,以更好地模拟现实世界的物理和语义特性。这可以通过使用先进的渲染技术、物理引擎和传感器模拟来实现。
另一种方法是将现实世界的数据纳入模拟环境中,以提高模拟的真实性和有效性。例如,可以使用真实世界的图像、视频和传感器数据来训练和测试智能体,从而使智能体更好地适应现实世界的环境。
此外,还可以开发迁移学习和强化学习算法,以帮助智能体在模拟环境和现实世界之间迁移知识和技能。通过在模拟环境中进行预训练,然后在现实世界中进行微调,可以使智能体更快地适应现实世界的任务和环境。
8. 智能体人工智能的持续学习和自我提升
智能体人工智能的一个重要目标是实现持续学习和自我提升的能力,使智能体能够随着时间的推移不断改进其性能和行为。这需要智能体能够从与环境和用户的交互中学习新知识和技能,并根据新的信息和反馈调整其策略和决策。
8.1 基于交互的学习
基于交互的学习是智能体人工智能中一种重要的学习方式,它允许智能体通过与环境和用户的交互来获取新知识和技能。这种学习方式可以通过多种方式实现,例如强化学习、模仿学习和交互式学习等。
在强化学习中,智能体通过与环境进行交互,根据所获得的奖励信号来学习最优的行为策略。通过不断地尝试和调整,智能体可以逐渐提高其在环境中的性能和适应性。
模仿学习则是智能体通过观察和模仿人类或其他智能体的行为来学习新的技能和知识。这种学习方式可以帮助智能体快速掌握复杂的任务和行为,并且可以减少学习过程中的探索成本。
交互式学习是指智能体与用户进行交互,根据用户的反馈和指导来学习和改进其行为。这种学习方式可以使智能体更好地理解用户的需求和意图,从而提供更个性化和有效的服务。
8.2 知识更新和整合
随着时间的推移,世界上的知识和信息不断变化和更新。为了使智能体能够跟上这些变化,需要开发方法来更新和整合智能体的知识。
一种方法是通过定期更新智能体的知识库,将新的知识和信息纳入其中。这可以通过从外部数据源(如互联网、数据库和专家系统)获取新的知识来实现。
另一种方法是使用知识图谱等技术来整合和表示不同来源的知识。知识图谱可以将各种类型的知识组织成一个结构化的网络,从而使智能体能够更方便地访问和利用这些知识。
此外,还可以开发算法来自动发现和学习新的知识和模式,从而使智能体能够不断扩展其知识和能力。
8.3 自我评估和改进
智能体人工智能还需要具备自我评估和改进的能力,以便能够识别其自身的不足之处,并采取相应的措施进行改进。
一种方法是通过使用性能指标和评估函数来评估智能体的性能。这些指标可以包括任务完成时间、成功率、错误率等。通过对这些指标的分析,智能体可以了解其在不同任务和环境中的表现,并找出需要改进的地方。
另一种方法是使用反馈机制来获取用户或其他智能体的反馈。通过对这些反馈的分析,智能体可以了解用户的需求和期望,并根据这些反馈来调整其行为和策略。
此外,还可以开发算法来自动检测和纠正智能体的错误和偏差。这可以通过使用异常检测算法、错误纠正码和其他技术来实现。
9. 智能体数据集和排行榜
为了评估和比较智能体人工智能系统的性能,需要开发合适的数据集和排行榜。这些数据集和排行榜可以为研究人员提供一个共同的平台,用于测试和验证他们的方法和模型,并促进智能体人工智能领域的发展。
9.1 智能体数据集
智能体数据集应该包含各种类型的信息,例如视觉数据、语言数据、音频数据和环境数据等,以支持智能体在不同任务和环境中的学习和评估。
在视觉数据方面,数据集可以包括图像、视频和点云等,用于支持智能体的视觉感知和理解任务。在语言数据方面,数据集可以包括文本、对话和指令等,用于支持智能体的语言理解和生成任务。
此外,数据集还应该包含关于智能体与环境和用户交互的信息,例如智能体的动作、决策和反馈等。这些信息可以帮助研究人员了解智能体在不同情况下的行为和表现,并评估其性能和效果。
为了确保数据集的质量和可靠性,需要进行严格的数据采集、标注和验证工作。数据采集应该尽可能地覆盖各种不同的场景和任务,以确保数据集的多样性和代表性。数据标注应该准确、一致和完整,以确保数据的可用性和可解释性。
9.2 智能体排行榜
智能体排行榜是一种用于评估和比较智能体人工智能系统性能的工具。排行榜可以根据不同的性能指标和任务,对不同的智能体系统进行排名和比较。
在排行榜中,应该明确规定评估指标和任务,以便研究人员能够准确地评估和比较不同的智能体系统。评估指标可以包括任务完成时间、成功率、错误率、泛化能力等。任务可以包括图像字幕、视觉问答、机器人导航、医疗诊断等。
此外,排行榜还应该提供详细的评估结果和分析,以便研究人员能够了解不同智能体系统的优缺点,并从中获得启发和借鉴。排行榜还可以促进研究人员之间的交流和合作,推动智能体人工智能领域的发展。
为了确保排行榜的公正性和权威性,需要建立严格的评估标准和流程,并邀请独立的评审人员进行评估和审核。
10. 更广泛的影响声明
智能体人工智能的发展有望对社会和经济产生广泛的影响。在社会方面,智能体人工智能可以改善人们的生活质量,提高医疗保健的可及性和质量,促进教育的发展,以及增强公共安全和应急响应能力。
在经济方面,智能体人工智能可以提高生产效率,降低成本,推动创新和创业,以及创造新的就业机会。例如,在制造业中,智能机器人可以自动化生产过程,提高生产效率和质量;在服务业中,智能客服可以提供24小时的服务,提高客户满意度和忠诚度。
然而,智能体人工智能的发展也带来了一些挑战和风险。例如,智能体人工智能可能会导致就业岗位的流失,加剧社会不平等;智能体人工智能可能会侵犯个人隐私和数据安全,引发伦理和法律问题;智能体人工智能可能会产生偏见和错误,导致决策失误和不良后果。
为了应对这些挑战和风险,需要制定相应的政策和法规,加强对智能体人工智能的监管和管理;需要加强对智能体人工智能的研究和开发,提高其性能和可靠性;需要加强对公众的教育和宣传,提高公众对智能体人工智能的认识和理解。

如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

更多推荐

所有评论(0)