agent论文分析

重要的是，它们不仅复制训练数据，而且还显示出一定程度的创造力，生成不同的文本，比人类[216]制作的基准同样新颖，甚至更新颖。人工智能（AI）是一个致力于设计和开发能够复制人类智能和能力的系统的领域，早在18世纪，哲学家Denis Diderot提出了一个观点，即如果一只鹦鹉能够回答每一个问题，它就可以被认为是智能的，他的观点突显了一个深刻的概念：高度智能的生物可以类似于人类智能。操作：首先，感知

Fairy要carry

1106人浏览 · 2024-07-11 00:53:47

Fairy要carry · 2024-07-11 00:53:47 发布

1.Agent的演变历史

人工智能（AI）是一个致力于设计和开发能够复制人类智能和能力的系统的领域，早在18世纪，哲学家Denis Diderot提出了一个观点，即如果一只鹦鹉能够回答每一个问题，它就可以被认为是智能的，他的观点突显了一个深刻的概念：高度智能的生物可以类似于人类智能。1950年代，Alan Turing将这一概念扩展到了人工实体，这些AI实体通常被称为“代理”，它们构成了AI系统的基本构建模块。在AI中，代理指的是一种人工实体，能够利用传感器感知其周围环境，做出决策，并使用执行器采取相应的行动。

2.agent是一种什么样的人工实体？

agent是那些用来描绘展示智能行为并具备一定自主性、反应性、主动性和社交能力等性质的实体。

3.agent目前的定位

agent的探索和技术进步已成为AI社区的重点，AI Agent 被认为是迈向实现人工通用智能（Artifical General Intelligence . AGI）的重要步骤，因为它们涵盖了进行各种智能活动的潜力。

目前人们对于Agent的努力主要集中再增强特定的努力上，如：符号推理，或掌握特定的任务，如围棋或国际象棋。

4.agent的现状

在开发智能AI代理方面，努力主要集中在提升特定能力上，例如符号推理，或掌握特定任务如围棋或国际象棋等。而实现在各种情境下的广泛适应性仍然是一个难以逾越的障碍。【泛化能力较弱】，另外，以往的研究更多地侧重于算法设计和训练策略，而忽视了模型固有的一般能力的发展，比如知识记忆、长期规划、有效泛化和高效交互。实际上，代理进一步发展的关键因素在于增强模型的固有能力**【中医】。该领域正需要一个具备多种关键属性的强大基础模型，作为代理系统的起点。【多个agent不同科室增强泛化能力】**

5.LLM和agent的关系

agent作为智能体，LLM相当于它的大脑。因为LLM知识获取、指令理解、泛化、规划和推理方面展示了强大的能力，同时在与人类的自然语言交互中表现出色。使LLM成为构建智能代理以促进人类与代理和谐共存的理想选择。

6.多agent协作

基于LLM的这些代理可以通过合作或竞争来处理更复杂的任务，并在将它们放置在一起时观察到新兴的社会现象。
在这里插入图片描述
图1：一个由人工智能代理组成的设想社会的场景，人类也可以参与其中。上图描绘了社会中的一些特定场景。在厨房里，一个代理点菜，而另一个代理负责计划和解决烹饪任务。在音乐会上，三名经纪人在一个乐队中合作表演。在户外，两个代理商正在讨论制作灯笼，计划所需的材料，以及通过选择和使用工具的财务问题。用户可以参与这个社交活动的任何一个阶段。

7.Agent的结构

大型语言模型（LLM）的代理提出了一个包含三个关键部分的一般概念框架：大脑、感知和行动，这个框架可以根据不同的应用进行定制。

7.1为什么LLM作为大脑的组成

因为大脑是人工智能代理的核心，因为它不仅储存关键的记忆、信息和知识，还承担着信息处理、决策制定、推理和规划等基本任务。它是决定代理能否表现出智能行为的关键因素。

7.2 Agent中的感知Perception模块

对于Agent来说，这个模块的作用类似于人类的感觉器官。其主要功能是将代理的感知空间从仅限文本扩展到包括文本、声音、视觉、触觉、嗅觉等多种感官模式的多模态空间。这种扩展使得代理能更好地从外部环境获取信息。【多模态感知】

7.3Agent中的action模块

代理能够具有文本输出，执行具体行动，并使用工具，以便更好地应对环境变化、提供反馈，甚至改变和塑造环境。

8.Agent的起源和发展简要、历史回顾

Agent的核心概念在哲学讨论中有历史背景，其根源可以追溯到亚里士多德、休谟等有影响力的思想家。一般来说，“代理”是具有行动能力的实体，而“代理性”表示这张行动能力的体现。狭义上，“代理性”通常用来指代有意图的行动表现；相应地，“代理”这个术语指那些具有欲望、信念、意图和行动能力的实体。

代理：具有行动能力的实体。
代理概念：，代理概念涉及个体自主性，赋予它们行使意志、做出选择和采取行动的能力，而不是被动地对外界刺激作出反应。

9.背景

1. 研究员们的意见：
LLMs作为一种预测模型，不同研究员发表了对于LLM是否适合作为Agents的大脑发表了看法以及原因
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KKuqWIh1-1721374538990)(https://i-blog.csdnimg.cn/direct/6531734602094cc8b1f0edbc1148c13d.png)]
2.Agents发展历程

符号智能体：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MaEKKzV4-1721374538993)(https://i-blog.csdnimg.cn/direct/a61ab20d9b7f4c87b8f0efe85e8021ab.png)]
符号智能体在处理大规模的真实世界问题中会有限制。
反应式智能体：主要关注主体和环境之间的相互作用，种代理的设计优先考虑直接的输入-输出映射，它们通常需要更少的计算资源，从而实现更快的响应，但它们可能缺乏复杂的更高级别的决策和规划能力。
基于强化学习的智能体：
本质上通过智能体和环境的交互来学习，使得在特定的场景中获取最大化奖励
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0Mz42X2F-1721374538994)(https://i-blog.csdnimg.cn/direct/b296346e9a854178bff35c7e551e7b55.png)]
迁移学习和元学习：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZVWhIB1k-1721374538995)(https://i-blog.csdnimg.cn/direct/45b4ec6f58b1402a88cf74449d2fd914.png)]
基于LLM的Agent：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yGwiw1hb-1721374538997)(https://i-blog.csdnimg.cn/direct/11767e7c5388458b8dce8dcb8b2bbed0.png)]
问题分解技术（Chain of Thought, CoT） :问题分解是一种解决问题的方法，其中复杂的问题被拆分成若干个更小、更易管理的子问题。通过这种方式，模型可以逐步推理出最终的解决方案。例如，在进行数学问题求解时，模型会首先识别问题类型，然后逐步计算出必要的中间步骤，最后汇总这些步骤得到最终答案。

少射击泛化： 指的是模型在只有很少或没有特定任务的训练数据时，依然能够执行该任务的能力。例如，一个语言模型可能只看过几个例子关于如何预测天气，然后就能对新的天气情况做出准确预测。

任务的无缝转移： 指模型可以从一个任务转移到另一个任务，而无需进行重新训练或显著修改。这是因为模型已经在庞大的语料库上学习了广泛的知识和语言结构，这些知识足以覆盖多种任务。
不需要更新参数： 在处理新任务时，不需要对模型的权重或结构进行调整。模型可以利用其已有的知识和理解能力来适应新的任务需求。

10. 为什么LLMs适合作为Agent中的主要部分

自主性（Autonomy）： llm在构建自治代理方面的巨大潜力。只要为他们提供一项任务和一组可用的工具，他们就可以自主地制定计划并执行它们，以实现最终的goal

llm可以通过生成类似人类的文本、参与对话和在没有详细的逐步指导的情况下执行各种任务来演示一种自主性形式[114；115]。此外，它们还可以根据环境输入动态调整输出，反映出一定程度的自适应自主性

反应性（Reactivity）：

传统上，语言模型的感知空间仅限于文本输入，行动空间也仅限于文本输出。然而，研究人员已经展示了通过多模态融合技术扩展大型语言模型（LLM）的感知空间的潜力，使其能够快速处理环境中的视觉和听觉信息。同样，通过体现技术和工具使用，也可扩展LLM的行动空间。这些进步使LLM能够有效地与现实世界的物理环境互动，并在其中执行任务。
挑战在于，当LLM基于代理执行非文本行动时，需要一个中间步骤，即先以文本形式生成思考或制定工具使用，然后再将其转化为具体行动。这一中间过程耗时且降低了响应速度。然而，这种过程与人类的行为模式密切相关，体现了“三思而后行”的原则。

主动性（Pro-activeness）：
Agent 需要通过主动采取的方式以实现特定的目标和适应环境的变化。而LLM可以隐式地生成这些状态的表示并指导模型的推理过程。llm已经证明了它具有很强的广义推理和规划能力。通过用“让我们一步一步地思考”等指令提示大型语言模型，我们可以引出它们的推理能力，如逻辑和数学推理[95；96；97]。类似地，大型语言模型也显示了以目标重新制定、任务分解和应对环境变化的形式进行规划的突发能力。

社会能力（Social ability）：
LLM有很强的自然语言交互能力，比如理解能力和生成能力，这种能力使得他们能够以一种可解释的方式与其他模型或者人类进行互动。这形成了基于llm的代理的社会能力的基石。许多研究人员已经证明，基于llm的代理可以通过协作和竞争等社会行为来提高任务绩效[108；111；129；130]。通过输入特定的提示，llm也可以发挥不同的角色，从而模拟现实世界中[109]中的社会分工。

基于llm的以自然语言进行交流的代理可以获得更多的信任，并更有效地与人类合作。

11. The Birth of An Agent: Construction of LLM-based Agents（智能体的产生，基于LLM的智能体的结构）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iC6Ad66w-1721374538998)(https://i-blog.csdnimg.cn/direct/f64aa521d34141b2b72c50fff46ca7be.png)]
三个模块： brain、perception、action；brain是核心，因为它涉及stores knowledge和memories，并且还承担信息处理和决策制定。基于环境推理首先要认知环境，利用多模态的方式代替了传统的文本输入，更有效地从周围环境中获取信息。action，赋予Agent具体地行动能力，使其能够快速地适应环境变化。

操作：首先，感知模块，对应于人类的感官系统，如眼睛和耳朵，感知外部环境的变化，然后将多模态信息转换为Agent的可理解的表示。随后，大脑模块作为控制中心，从事信息处理活动，如思维、决策和存储操作，包括记忆和知识。最后，与人体假肢对应的动作模块在工具的辅助下进行执行，并对周围环境产生影响。通过重复上述过程，Agent可以不断地得到反馈，并与环境进行交互。

Brain

参与自然语言交互【1】，再收到Perception模块处理后得信息后，Brain会转向Memory。检索知识【2】，然后从记忆中进行回忆【3】，有助于agent做出明智planning【4】。另外Brain可以以总结、向量、其他数据结构的形式对记忆主体进行观察、行为。同时，它还可以更新常识和领域知识等知识，以供将来使用。基于llm的代理也可以通过其固有的泛化和传输能力来适应不熟悉的场景【5】.

1.Natural Language Interaction（自然语言交互）

1.1 多回合互动对话Multi-turn interactive conversation.

即使是人类也很难在一次混乱下进行交流，所以需要多轮对话。但是多回合对话(1)是交互式的，涉及多个说话者，缺乏连续性；(2)可能涉及多个主题，对话的信息也可能冗余，使得文本结构更加复杂。一般来说，多回合对话主要分为三个步骤： (1)理解自然语言对话的历史，(2)决定采取什么行动，(3)产生自然语言反应。基于llm的Agent能够使用以及存在的信息（existing information）不断地细化输出【CoT？】，以进行多回合对话，并有效地实现最终目标。 【LLM在里面的作用是：理解自然语言，产生连贯的、上下文相关的反应，有助于agent更好地理解和处理各种问题】

1.2 高质量的自然语言生成High-quality natural language generation.

Fang等人的[133]的研究结果表明，ChatGPT擅长于语法错误检测，突出了其强大的语言能力。在对话环境中，llm在对话质量的关键指标上也表现良好，包括内容、相关性和适当性[127]。重要的是，它们不仅复制训练数据，而且还显示出一定程度的创造力，生成不同的文本，比人类[216]制作的基准同样新颖，甚至更新颖。同时，通过使用可控制的提示，人类的监督仍然有效，确保了对这些语言模型[134]生成的内容的精确控制。

1.3 意图和含义的理解Intention and implication understanding.

大型语言模型(LMMs)的出现突显了基础模型理解人类意图的潜力，但当涉及到模糊指令或其他含义时，这对代理来说是一个重大挑战[94; 136]。对人类来说，从对话中把握隐含的意义是自然而然的，而对代理来说，他们应该将隐含的意义形式化为一个奖励函数，这个函数允许他们在未见过的情境中选择符合说话者偏好的选项[128]，以便在未知情境中做出符合人类偏好的选择。奖励建模可以通过基于反馈的推断或从描述中恢复奖励来进行。通过这种方式，代理能够根据上下文理解采取个性化和准确的行动[128]。

2.Knowledge

由于现实世界的多样性，许多自然语言处理（NLP）研究人员尝试使用规模更大的数据。这些数据通常是非结构化和未标记的[137；138]，但它包含了语言模型可以学习的巨大知识量。从理论上讲，语言模型可以随着参数数量的增加而学习更多的知识[139]，并且语言模型有可能学会并理解自然语言中的一切。研究[140]表明，在大规模数据集上训练的语言模型可以将广泛的知识编码到它们的参数中，并对各种类型的查询做出正确的响应。此外，这些知识可以帮助基于大型语言模型（LLM）的代理做出明智的决策[222]。

语言知识： 包括了语言的形态学、句法、语义和语用学，使得Agent能够理解并使用句子进行交流，并且能够通过多语言训练来获得不同语言的能力。
常识知识： 涉及人们普遍认可的基本事实和生活常识，如药物用于治疗，伞用于防雨。这种知识帮助Agent更好地理解上下文，并做出符合常理的决策。
专业领域知识： 指的是特定领域的专业知识，如编程、数学或医学。这种知识使得 Agent 能够在特定领域内解决问题，例如编程模型需要知道代码格式，医学模型需要知道疾病名称和药物。

3.Memory记忆部分（有优化）

正如人类大脑依赖记忆系统来回顾性地利用先前的经验来制定策略和决策一样，Agent 需要特定的记忆机制来确保他们熟练地处理一系列连续的任务[229；230；231]
记忆机制使个体能够通过利用过去的经验来适应不熟悉的环境。

出现了两个主要的挑战。第一个是关于历史记录的绝对长度：
基于llm的代理以自然语言格式处理之前的交互，并将历史记录附加到每个后续输入中。随着这些记录的扩展，它们可能会超过大多数基于llm的代理所依赖的变压器体系结构的约束条件。当发生这种情况时，系统可能会截断某些内容。

第二个挑战是提取相关记忆的困难： 随着代理积累了大量的历史观察和行动序列，他们正在努力应对不断升级的记忆负担。这使得在相关主题之间建立联系越来越具有挑战性，从而有可能导致代理将其响应与正在进行的上下文不一致。

方法：

提高Transformer模型处理长序列的能力，通过文本截断 [163; 164; 232],、输入分段和强调文本关键部分 [235; 236; 237]等策略。
记忆摘要，通过各种技术从历史交互中提取关键信息，包括使用提示整合记忆[168]和创建压缩的记忆表示[22；239]，层次化方法将对话流程简化为每日快照和总体摘要[170]。
使用向量或数据结构压缩记忆，提高记忆检索效率，包括嵌入向量[109; 170; 172; 174]。另一种方法将句子转换为三元组配置[173]。
交互式记忆对象的概念，允许用户通过摘要操作影响 Agent 对于对话的感知[176]。如删除[175]。这些方法确保了记忆内容与用户的期望紧密对齐。

4.Reasoning和Planning（推断和决策）【有优化】

1.Reasoning推理: 是使用证据和逻辑进行智力活动的基础，是解决问题、决策制定的基石[241; 242; 243]，包括演绎、归纳和溯因等主要形式[244]。LLM代理的推理能力对于解决复杂问题至关重要。一些研究认为LLM在预训练或微调期间就具备推理能力[244]，而另一些研究则认为推理能力是在模型达到一定规模后出现的[245]。代表性的"思维链"(Chain-of-Thought, CoT)方法[95; 96] 已经证明可以通过引导LLM在输出答案前生成理由来激发大型语言模型的推理能力。还有一些其他策略被提出来提高LLM的性能，比如自我一致性[97]、自我润色[99]、自我精炼[178]和选择性推理[177]等。一些研究表明，逐步推理的有效性可以归因于训练数据的地方统计结构，具有地方结构化的变量依赖性比训练所有变量具有更高的数据效率[246]【可优化】。

2.Planning计划: 规划能力对于代理至关重要，而这个规划模块的核心是推理能力[250; 251; 252]。这为基于LLM的代理提供了一个结构化的思维过程。通过推理，代理将复杂任务分解为更易于管理的子任务，并为每个任务制定适当的计划[253; 254]。此外，随着任务的进展，代理可以进行自身以修改他们的计划，确保它们更好地符合现实世界的情况。
积极与人类进行互动，使得agent的规划路径与人类思想进行对齐，减少误解。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nY3jYYZD-1721374539000)(https://i-blog.csdnimg.cn/direct/77cf6ede18254a9aa4e7fca9b30251ac.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I3QJRFJB-1721374539001)(https://i-blog.csdnimg.cn/direct/61a1dc17685d40d3975ea4c8f398c649.png)]

5.Transferability and Generalization（可转移性和泛化性）

主要讲述了基于LLM的Agent需要有强大的泛化能力以适应未见过的专业知识领域。大量研究表明，在大规模语料库上预训练的模型可以学习到通用的语言表示[36; 261; 262]。利用预训练模型的力量，只需少量数据进行微调，大型语言模型（LLM）就能在下游任务中展现出卓越的性能[263]。【通过特定领域知识对LM进行微调】，然而，通过特定任务的微调，模型缺乏通用性，并且在泛化到其他任务上存在困难。【微调存在的问题】 与仅仅作为静态知识库的功能不同，基于LLM的代理表现出动态学习能力，使它们能够快速而稳健地适应新任务[24; 105; 106]。【没看懂】

Unseen task generalization未见任务泛化： 研究表明，经过指令调整的LLM表现出无需特定任务微调的零样本泛化[24; 25; 105; 106; 107]。LLM可以通过基于自身理解遵循指令来完成在训练阶段没有遇到的新任务。其中一种实现方式是多任务学习，例如，FLAN[105]通过指令描述的任务集合对语言模型进行微调，T0[106]引入了一个统一框架，将每个语言问题转换为文本到文本的格式。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VBZTXMPH-1721374539004)(https://i-blog.csdnimg.cn/direct/3aec9c39827d4346b3e6c92a7b7857a6.png)]
In-context learning（上下文学习）： LLM可以通过上下文学习从少量示例中学习，并通过类比的方式执行复杂任务，这种方式类似于人类的学习过程。
Continual learning（持续学习）： LLM展现出通过规划能力进行持续学习，不断获取和更新技能，同时解决灾难性遗忘的问题[273]，以适应更复杂的挑战。人们已经投入了大量努力，大致可以分为三组： 引入经常使用的术语以参考先前的模型[274; 275; 276; 277]，近似先前数据分布[278; 279; 280]，以及设计具有任务自适应参数的架构[281; 198]。

Perception（感知）

感知输入被转换成神经信号并发送到大脑进行处理[299; 300]，允许我们感知和与世界互动。同样，对于基于LLM的Agent来说，从各种来源和模态接收信息至关重要。这种扩展的感知空间有助于 Agent 更好地理解其环境，做出明智的决策，并在更广泛的任务中表现出色，这成为了一个重要的发展方向。

1. textua Input（文本输入）

基于LLM的代理已经具备了通过文本输入和输出与人类通信的基本能力[114]。理解隐含意义对于Agent把握潜在的用户意图和提高与用户的通信效率和质量至关重要。一些研究[128; 218; 219; 220]采用强化学习来感知隐含意义，并通过模型反馈来推导奖励。这有助于推断说话者的偏好，从而让代理做出更个性化和准确的响应。理解未知任务的文本指令对代理的文本感知能力提出了更高的要求。经过指令调整的LLM[105]可以展示显著的零样本指令理解和泛化能力，消除了对特定任务微调的需求。

2. Video Input（视觉输入）

尽管LLM在语言理解[25; 301]和多轮对话[302]方面表现出色，视觉输入通常包含关于代理周围世界丰富信息，包括物体属性、空间关系、场景布局等。因此，将视觉信息与其他模态的数据整合起来，可以为代理提供更广阔的背景和更精确的理解[120]，深化代理对环境的感知。一个直接的方法是为图像输入生成相应的文本描述，即图像字幕生成[303; 304; 305; 306; 307]。然而，字幕生成是一种低带宽方法[120; 308]，在转换过程中可能会丢失大量潜在信息。

因此，Transformer在自然语言处理中出色表现的启发[309]，代表性的工作如ViT/VQVAE[282; 283; 284; 285; 310]已经成功地使用Transformer编码视觉信息。研究人员首先将图像划分为固定大小的块，然后将这些块在线性投影后作为输入令牌Transformer[292]。最后，通过计算令牌之间的自注意力，他们能够整合整个图像的信息，形成了一种高效的感知视觉内容的方式。LLM不能直接理解视觉编码器的输出，因此需要将图像编码转换为LLM能够理解的嵌入。换句话说，这涉及到将视觉编码器与LLM对齐，这通常需要在它们之间添加额外的可学习界面层。例如，BLIP-2[287]和InstructBLIP[288]使用查询变换器(Q-Former)模块作为视觉编码器和LLM之间的中间层[288]。Q-Former是一种变换器，采用可学习的查询向量[289]，使其能够提取语言信息的视觉表征。它可以向LLM提供最有价值的信息，减少代理学习视觉-语言对齐的负担，从而缓解灾难性遗忘的问题。同时，一些研究人员采用计算效率高的方法，使用单一投影层实现视觉-文本对齐，减少了训练额外参数的需要[118; 291; 312]。此外，投影层可以有效地与可学习界面集成，适应其输出的维度，使其与LLM兼容[296; 297; 313; 314]。【总的来说，研究人员采用了多种方法，包括图像字幕生成和使用Transformer架构的视觉编码器】

Action

代理的行动模块，设计用于能够与人类的方式对环境做出反应。反映了人类是如何感知环境、规划路径并做出决策的。一个具有类似大脑结构的代理，具备知识、记忆、推理、规划和泛化能力以及多模态感知，也被期望能展现出多样化的行动能力，以应对其周围环境。

1.Textual ouput

基于Transformer的LLM，赋予了基于LLM的Agent固有的语言生成能力[132; 213]。它们生成的文本在流畅性、相关性、多样性和可控性等各个方面都表现出色[127; 214; 134; 216]。因此，基于LLM的代理可以成为非常强大的语言生成器。

2.Using Tools

如果代理也学会使用和利用工具，它们也有潜力更有效地完成复杂任务，并提高质量[94]。

3. Understanding Tools

有效使用工具的先决条件是全面了解工具的应用场景和调用方法**【怎么用+用在哪】**。利用LLM强大的零样本和少样本学习能力[40; 41]，**代理可以通过使用描述工具功能和参数的零样本提示，或提供特定工具使用场景和对应方法的少样本提示，来获取有关工具的知识[92; 326]。**这些学习方法与人类通过查阅工具手册或观察他人使用工具的学习方式相似[94]。

4.Learning to use Tools

代理学习使用工具的方法主要包括从演示学习和从反馈中学习。包括模仿人类专家的行为[346; 347; 348]，以及理解其行为的后果，并根据来自环境和人类的反馈进行调整[24; 349; 350]。环境反馈包括关于行动是否成功完成任务的结果反馈，以及捕捉由行动引起的环境状态变化的中间反馈；

如果代理在应用工具时缺乏适应性，它在所有场景中都无法达到可接受的性能。代理需要将特定情境中学到的工具使用技能泛化到更一般的情况【将学到的工具能力进行泛化】，代理需要把握工具使用策略中的共同原则或模式，这可能通过元工具学习[327]来实现。提高代理对简单和复杂工具之间关系的理解，例如复杂工具是如何建立在更简单工具之上的，可以有助于代理泛化工具的使用。

5. making tools for self-sufficiency

为了让代理更好地使用工具，需要为代理专门设计的工具。这些工具应该更具模块化，并且具有更适合代理的输入输出格式。如果提供指令和演示，基于LLM的Agent也具备通过生成可执行程序或将现有工具整合成更强大工具来创建工具的能力[94; 330; 352]，并且它们可以学习进行自我调试[331]。此外，如果作为工具制造者的Agent成功地创建了一个工具，它可以为多代理系统中的其他代理生成包含工具代码和演示的包，除了使用该工具本身[329]。推测性地，在未来，代理可能变得自给自足，并在工具方面表现出高度的自主性。

例如，基于搜索的工具可以通过外部数据库、知识图谱和网页帮助代理改善可获取知识的范围和质量，而特定领域的工具可以增强代理在相应领域的专业知识[211; 353]。一些研究人员已经开发了基于LLM的控制器，它们可以生成SQL语句来查询数据库，或将用户查询转换为搜索请求并使用搜索引擎获取所需结果[90; 175]。

6.Tools can expand the action space of LLM-based agents

工具使代理能够利用外部资源，如网络应用和其他语言模型，来增强它们的决策和行动能力[92]。此外，工具的输出不仅限于文本，还包括非文本输出，这扩展了代理的行为模态和应用场景[328; 356; 179]。

7. Embodied Action（体现行为）

Embodied Agent努力将模型智能与物理世界相融合。主要受到人类智能发展过程的启发，提出Agent的智能源于与环境的持续互动和反馈，而不是仅仅依赖于精选的教科书。人们期望基于LLM的代理的行为将不再局限于纯文本输出或调用确切的工具来执行特定领域的任务[358]。相反，它们应该能够主动感知、理解并与物理环境互动，做出决策，并根据LLM的广泛内部知识产生特定行为来修改环境。我们统称这些为体现行为，这使代理能够以与人类行为非常相似的方式与世界互动和理解。

基于LLM的Agent在体现行为方面的潜力： 尽管基于RL的体现[359; 360; 361]取得了广泛的成功，但它在某些方面确实存在局限性。简而言之，RL算法在数据效率、泛化和复杂问题推理方面面临限制，这是由于对动态且常常含糊不清的真实环境建模的挑战，或者对精确奖励信号表示的过度依赖[362]。最近的研究表明，利用LLM在预训练期间获得的丰富内部知识可以有效地缓解这些问题[120; 187; 258; 363]。

成本【有优化：几何输入】： 通过利用LLM的内在知识，像PaLM-E[120]这样的代理联合训练机器人数据与一般视觉-语言数据，以实现在体现任务中显著的迁移能力，同时也展示了几何输入表示可以提高训练数据效率。

成本效率。一些策略算法在样本效率上存在困难，因为它们需要新鲜数据来更新策略，而收集足够的体现数据进行高性能训练既昂贵又嘈杂。约束也在某些端到端模型中发现[364; 365; 366]。通过利用LLM的内在知识，像PaLM-E[120]这样的代理联合训练机器人数据与一般视觉-语言数据，以实现在体现任务中显著的迁移能力，同时也展示了几何输入表示可以提高训练数据效率。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uyYsq7Sy-1721374539005)(https://i-blog.csdnimg.cn/direct/8efc12bc40ee49e094203439ed4fef0b.png)]

体现行为规划：【有优化：模型监督模型】 代理的能力应该超越特定任务。面对复杂、未知的真实世界环境时，代理展示动态学习和泛化能力至关重要。然而，大多数RL算法旨在为特定任务训练和评估相关技能[101; 367; 368; 369]。LLM[26]可以无缝地应用于复杂任务，以零样本或少样本的方式【就是Zero-shot和Few-shot】[95; 97; 98; 99]。此外，来自环境的外部反馈可以进一步增强基于LLM的代理的规划性能，基于当前环境反馈，一些工作[101; 91; 100; 376]动态生成、维护和调整高层次行动计划，以减少对部分可观察环境中先前知识的依赖，从而为计划提供基础。反馈也可以来自模型或人类，这些通常被称为评论家，根据当前状态和任务提示评估任务完成情况[25; 190]。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0341zGZ6-1721374539006)(https://i-blog.csdnimg.cn/direct/1718c05ff48d434f8bb4298d5d8c4907.png)]