【大模型智能体】基于视觉语言模型的多智能体规划

愤斗的橘子

932人浏览 · 2024-08-13 21:34:23

愤斗的橘子 · 2024-08-13 21:34:23 发布

基于视觉语言模型的多智能体规划

https://arxiv.org/abs/2408.05478

Michele Brienza ${}^{*,1}$ , Francesco Argenziano ${}^{*,1}$ , Vincenzo Suriani ${}^{\dagger ,1}$ , Domenico D. Bloisi ${}^{8,1}$ 和 Daniele Nardi

摘要:

大语言模型（LLMs）和视觉语言模型（VLMs）由于其性能的提高和在各个领域及任务中的应用而引起了越来越多的关注。然而，LLMs 和 VLMs 有时会产生错误的结果，尤其是在需要深入理解问题领域时。例如，当同时需要规划和感知时，这些模型常常因难以合并多模态信息而挣扎。为了解决这个问题，通常采用经过微调的模型，并在表示环境的专用数据结构上进行训练。这种方法的有效性有限，因为它可能会过于复杂化处理的上下文。在本文中，我们提出了一种用于具身任务规划的多智能体架构，该架构在不需要特定数据结构作为输入的情况下运行。相反，它使用环境的单一图像，通过利用常识知识来处理自由形式的领域。我们还引入了一种新的完全自动评估程序 PG2S，旨在更好地评估计划的质量。我们使用广为认可的 ALFRED 数据集验证了我们的方法，比较 PG2S 和现有的 KAS 指标，以进一步评估生成计划的质量。

1 引言

基础模型（FMs）是一个训练于广泛（互联网规模）数据的机器学习模型，可以被微调以用于多种下游应用 [6]。这些模型的初始例子，即大语言模型（LLMs） [9, 7, 1, 31]，本质上属于自然语言处理领域。然而，在过去几年中，我们目睹了多模态 LLM 的出现，这些模型可以处理非文本输入和输出。视觉语言模型（VLMs） [16, 22] 在这一类别中具有特别的相关性，因为它们可以接受图像和/或文本查询作为输入，并生成上下文相关的高质量输出。此外，像 HuggingFace [35] 和 LangChain [5] 等许多工具包的诞生促进了此类模型的爆发和分发，拓宽了它们的应用领域。

已经证明，LLMs 可以作为零-shot [12] 和少量-shot [28] 规划者使用。这是因为这些模型已经在大量数据上进行训练，因此它们融入了人类的常识知识 [14]。

图 1. 提出的框架的总体视图。在给定任务描述和场景图像的情况下，计划通过多智能体规划获得，并通过新得分进行评估。

拥有常识知识的智能体通过链式思维 [34] 获得复杂的推理能力，因此能够正确生成一个实现所期望目标的计划。生成的计划是有依据的，因为行动、物体和状态都指向具身智能体正在考虑的特定环境，这要归功于查询中包含的信息。现有的基础解决方案关注于以结构化的方式对环境进行编码，即使用表格或图形 [15, 23]，因为在转换为某种可流式传输的格式后，它们更容易引导模型。然而，这类表示形式随着环境规模的扩大而迅速增长，因此在将它们纳入语言模型查询提示时变得困难。上下文窗口，即模型在生成语言时可以处理的文本量，随着提示的增加而变得非常大，输出可能会受到多种幻觉的影响 [17]。这是任何 LLM 应用中的一个问题，尤其是在我们尝试规划特定程序以实现某个目标时。因此，重要的是尽可能减小输入到模型中的内容，仅包括执行所需任务的必要信息。事实上，将目标分解为多个独立智能体的子目标可以显著改善最终输出，从而相较于单智能体架构表现出色 [33, 30, 20]。

图 2. 提出方法的完整详细架构。任务描述和图像作为输入提供给提取场景中有意义信息的智能体。然后将其输出处理由规划智能体生成最终计划。该计划随后与基准进行比较，并根据我们新的度量标准进行评估，该标准考虑语义上有意义的信息。

在本文中，我们分析了在作为推理组件使用基础模型（FMs）时的能力。特别是，我们使用 FMs 在自由形式领域内为具身智能体部署有依据的计划，即没有结构化表示的领域。我们所需要的只是捕捉环境最相关方面的场景图像和关于我们想要达到目标的文本查询。我们的方法利用了一个分层的多智能体结构，意味着每个智能体是一个不同的 VLM/LLM 实例，专门解决整个规划过程中的一个方面，按照 [30] 给出的定义。通过这种方式，每个智能体都有一个有限的上下文窗口，因此更不容易出现幻觉。

我们进行了一项比较研究，以证明我们的单图像多智能体方案优于利用结构化环境表示（如表格）的架构以及将所有输入同时提供给 VLM 的单智能体架构。

我们还提出了计划目标语义得分（PG2S），这是一种新的度量标准，不依赖用户验证来评估结果。PG2S 不考虑实现目标的计划所需的行动的部分顺序，并且在语义上是合理的，因为它处理同义词而不会丧失计划的含义。在图 1 中，可以看到我们系统的总体视图。总之，这项工作的贡献有三方面：

我们证明，可以使用 VLM 和查询输入合理地规划以实现任务，放宽关于复杂结构化查询的假设；
我们提出了一种多智能体框架，将最终任务分解为不同的子任务，从而降低幻觉和其他有害现象的风险；
我们引入了一种新的度量标准 ${PG2S}$ ，以自主评估以自然语言表达的计划的正确性，该计划对部分排序不敏感且具有语义意识。

我们在 ALFRED [27] 上验证了我们的方法，该基准特意设计用于评估家庭环境中的自然语言指令映射，基于 AI2-THOR 框架构建 [13]。为了比较，我们使用 G-PlanET [15]，它包含 ALFRED 的所有模拟环境，但以表格形式表示。我们将在我们的项目网站上发布代码、使用的提示和获得的结果 ${}^{2}$ ## 2 相关工作

在本节中，我们讨论有关使用 LLM 进行规划和采用多智能体架构进行提示的现有解决方案。

2.1 LLM 作为规划者

运用 LLM 为具身智能体服务的开创性工作是 SayCan [2]，在这一工作中，机器人可以作为 LLM 在现实世界场景中扎根任务的“手和眼”，利用模型的语义知识执行复杂的指令。在这项研究之后，许多不同用例中开始出现使用 LLM 作为规划组件的几种方法。

Huang 等人 [12] 证明了 LLM 在被正确提示时表现得像零-shot 规划者。相比之下，Song 等人[28] 显示，在少量样本设置中调整这些模型使它们超越最先进的视觉语言导航（VLN）模型，即使这些模型是在更广泛的数据上训练的，这得益于大型语言模型（LLMs）嵌入的常识知识。

当输入的查询不完全是文本时，LLMs 的能力会发生变化，但可以采取更结构化的形式，例如，表格结构 [15]，图形结构 [23]（例如 3D 场景图 [4]），甚至是 LTL 公式 [8]。结合这些额外的信息对于提高所需任务的整体性能是有用的。然而，这些技术的最大缺点是，当应用于现实世界的场景时，由于环境是非结构化的，它们需要非常高的计算成本。

得益于 VLMs 的进展，新研究方向成为可能，例如直接处理给定给具身智能体的视觉查询的可能性。允许系统接收环境的输入图像可以解决创建复杂结构化表示的问题，从而节省时间和计算，同时仍保持 LLM 的推理能力。例如，[10] 显示可以使用 VLMs 找到环境中由人类给出的自然语言描述（如“猫形杯子”）所描述的物体。

然而，选择使用哪个 VLM 不是一项简单的任务。许多 VLM 是基于 CLIP [21] 构建的，但这些模型呈现出袋词行为 [38]，即它们忽略输入的语义结构，例如对象之间的空间关系。为了应对这个问题，LLM-Grounder [37] 显示确实可以利用 VLM 的能力为具身智能体进行规划，同时减少袋词现象的影响。在我们的方法中，我们采用 VLM 来摆脱复杂的结构化输入，但同时，我们通过使用多智能体方法尽量减少袋词行为。我们的方法能够以这样的方式将任务分解为子任务，使潜在的问题关系由特定智能体处理。

2.2 多智能体提示

随着 LLMs 的传播，发现特定的提示模式比自由形式提示产生了更好的结果（提示工程） [39]。在规划应用中，链式思维推理 [34] 标志着显著的进步，实现了多步骤推理。

与 LLM 进行提示工程的另一个重要步骤是利用多智能体系统的力量。在 [30] 中，展示了一个协作环境，在这个环境中，多个角色不同的智能体必须协作完成任务，相对于单智能体的表现更佳。此外，结果不仅在许多角色特定的智能体环境中改善，还在多角色自协作智能体的环境中改善 [33]。

几个框架开始出现，简化多智能体应用的开发 [36, 24, 26]。作为缺点，这些框架本质上增加了采用它们的系统的复杂性。

3 方法论

LLM 和用户之间的典型交互包括一个试错过程，通过优化提示以获得期望的结果。环境信息的准确性对于获得正确的计划至关重要。通常，这些信息来自表格或结构化数据。我们的方法基于放宽先前标记过程中的结构化信息。在我们的架构中，我们使用一个多智能体流水线，该流水线仅将环境的图像和要执行的任务作为输入。然后，我们展示如何该策略使我们即使在自由形式领域中也能有正确的计划。为了评估正确性，我们使用 PG2S 指标，通过比较基于图像生成的计划与基于表格的计划，参考 ALFRED 的注释。

3.1 多智能体规划

我们的解决方案使用三个智能体，每个智能体代表规划生成过程中的一个阶段：语义知识挖掘智能体（SKM）、基础知识挖掘智能体（GKM）和规划智能体 $\left( P\right)$ 。对于处理图像的智能体使用 GPT-4V，而规划智能体则使用 GPT-4 [1]。

SKM 智能体识别图像中的对象类别并建立场景的本体。它还确定对象之间的关系，创建知识图谱。GKM 智能体对这些对象进行实际基础处理，提供包括它们与周围对象关系的短描述，从而产生高层次但结构合理的场景描述。然后， $P$ 智能体使用来自 SKM 和 GKM 智能体的信息生成一个计划。该方法最小化幻觉现象，并将计划集中于场景中的相关对象。

使用视觉语言模型（VLM），我们通过多智能体策略获得更好的结果，而不是单一智能体方法。在单一智能体设置中，提示指示 VLM 从输入图像创建计划。相反，多智能体设置允许挖掘智能体丰富规划智能体的知识，提供详细的环境信息，如图 2 所示。

多智能体策略通过在智能体之间分配工作负载来提高计划质量，每个智能体处理特定任务。这种划分通过在每个智能体的上下文窗口内保持更小、更集中的提示，降低了幻觉的风险 [17]。通过将任务分解为更简单的子任务，我们的流水线确保更准确和连贯的响应，遵循“分而治之”的原则。

3.2 评估

选择适当的度量标准来评估生成计划的质量并不是一件简单的事情。通常，仅使用成功率（SR）或按逆路径长度加权的成功率（SRL）来评估计划的正确性 [28, 10]。然而，这些指标计算起来并不方便，研究人员通常依赖于亚马逊机械土耳其人来通过人工专家检查正确性。此外，它们不评估计划的质量：仅说明目标达到的次数以及计划长度如何影响结果。

G-PlanET [15] 试图定义一个新的度量标准以应对这个问题：受用于语义说明的指标（如 CIDEr [32] 和 SPLICE [3]）的启发，提出了关键动作评分（KAS）。KAS 基于从生成的计划 ${\widehat{S}}_{i}$ 的每个步骤和数据集的参考计划 ${S}_{i}$ 中获得的一组关键动作短语来构建。然后，通过检查 ${\widehat{S}}_{i}$ 中有多少动作短语被 ${S}_{i}$ 覆盖，并计算这个精度，可以评估两组在计划的第 $i$ 步中的匹配质量。

该指标存在两个主要局限性。第一个是它总是假设参考计划是正确的，这并不总是正确的，因为我们在 ALFRED 数据集中发现了一些并不完全正确的计划示例：例如，目标“把热面包放进冰箱”的参考计划中的其中一步是“把刀放进微波炉”，这对于所需的目标来说极其危险且整体上是错误的。第二个是，在 KAS 的定义中，只有当映射符合步骤给出的动作顺序时，才被视为正确。这是一个强假设，因为有许多计划中动作的顺序并不是达到目标所必需的 [19]，因此可能会对实际上是正确的计划进行惩罚。

为此，我们提出了一种新的度量 PG2S，以应对这一问题。作为示例，我们展示一个可以用作真实计划的参考计划和一个可能的预测计划（见表 1）。对于人类评估者来说，达到目标“穿上一双鞋”的预测计划是正确的。尽管如此，该计划在动作顺序上与真实计划不同，评估应能够考虑这种可能性。使用 KAS 指标，相似性得分为 0.33；而对于 PG2S（我们的），获得的相似性得分为 0.83。算法 1 展示了计算此类评估得分的过程。更详细地说，给定两个规划描述集 ${\mathcal{P}}_{gt}$ 和 ${\mathcal{P}}_{\text{pred }}$ ，分别为真实计划和预测计划，我们的目标是量化它们的相似性，使用两个评估层次，即基于语句的和基于目标的，均基于语义值。为了确定两个嵌入是否相似，我们使用阈值机制。特别地，我们采用 [25] 中提出的方法，作者们获得的阈值会根据嵌入向量的维度变化，并验证它们的使用只允许获得语义上相似的元素。

算法 1 PG2S 评估程序

要求： ${\mathcal{P}}_{gt}$ 真实计划， ${\mathcal{P}}_{\text{pred }}$ 预测计划

确保： ${PG2S}$ 1: MaxSimilPlan, MaxSimilGoal $\leftarrow \left\lbrack \right\rbrack$ : 对于 ${s}_{i} \in {\mathcal{P}}_{gt}$ 做

在 ${\mathcal{P}}_{\text{pred }}$ 中找到最相似的句子 ${s}_{j}$ 如果存在：将 1 加到 MaxSimilPlan；否则加 0 ${\mathcal{P}}_{\text{pred }} \cdot \operatorname{pop}\left( {s}_{j}\right)$ ${S}_{\text{plan }} \leftarrow \operatorname{mean}\left( \text{ MaxSimilPlan }\right)$ ${A}_{gt},{A}_{\text{pred }} \leftarrow \left\lbrack \right\rbrack$ : 对于 ${s}_{i},{s}_{j} \in {\mathcal{P}}_{gt},{\mathcal{P}}_{\text{pred }}$ 做

使用 Framing() 将动作添加到 ${A}_{gt}$ 和 ${A}_{\text{pred }}$ 对于 ${a}_{i} \in {A}_{gt}$ 做

[1] ABDALLAH G, THORAVAL A, SFEIR A, PIGUET J P. 热对流流体的

如果存在：将 1 加到 MaxSimilGoal；否则加 0 ${\mathcal{A}}_{\text{pred }} \cdot \operatorname{pop}\left( {a}_{j}\right)$ ${S}_{\text{goal }} \leftarrow \operatorname{mean}\left( \text{ MaxSimilGoal }\right)$ $\leftarrow \alpha * {S}_{\text{plan }} + \left( {1 - \alpha }\right) * {S}_{\text{goal }}$ —

句子级相似性。为了计算句子相似性，我们通过句子变换器为每个句子部署嵌入向量表示。特别地，我们使用 MPNet [29]，它在语义评估任务中比以前的最新预训练模型 [29]（例如 BERT、XL-Net 和 RoBERTa）取得更好的结果。对于每个句子 ${s}_{i} \in {\mathcal{P}}_{gt}$ 和 ${s}_{j} \in {\mathcal{P}}_{\text{pred }}$ ，我们使用余弦相似度 $\cos \left( {{v}_{i},{v}_{j}}\right)$ 来获取它们的嵌入之间的相似性 $\left( {v}_{i}\right.$ 和 $\left. {v}_{j}\right)$ 。对于每个 ${s}_{i}$ ，我们识别出 ${\mathcal{P}}_{\text{pred }}$ 中最相似的句子（第 3 行）并将其从集合中移除（第 5 行）。每个相似性的值生成一系列最大相似度分数。句子级相似性是这些分数的平均值（第 6 行）。 ${S}_{\text{plan }}\left( {{\mathcal{P}}_{gt},{\mathcal{P}}_{\text{pred }}}\right) = \frac{1}{N}\mathop{\sum }\limits_{{i = 1}}^{N}{\operatorname{MaxSimilPlan}}_{i} \tag{1}$ 目标级相似性。为了计算目标相似性，我们首先使用 spaCy [11] 进行词性标注预处理阶段，然后，对于每个句子，我们使用 Framing() 过程提取主要动作（第 9 行）。该过程如下：对于句子中的每个单词，如果它是 i. 一个中心（“根”）动词（VERB），或者 ii. 如果它是名词（NOUN）并且其依赖标签是“直接对象”（DOBJ）或“名义主语”（NSUBJ），则将其添加到动作集中。通过这种方式，对于每一步我们获得主要动作和相关对象。对于每个动作 ${a}_{i} \in {\mathcal{A}}_{gt}$ 和 ${a}_{j} \in {\mathcal{A}}_{\text{pred }}$ ，我们从名词相似度和动词相似度的平均值与 WordEmbeddingSimilar-ity() 工具（Word2Vec [18]）的乘积中获得相似性值。如果两个名词和两个动词的相似性值超过阈值 $\tau = {0.708}$ ，则我们认为它们是相似的，参考文献 [25]。

对于 ${\mathcal{A}}_{gt}$ 中每个动作 ${a}_{i}$ 我们识别出 ${\mathcal{A}}_{\text{pred }}$ 中最相似的动作并将其从集合中移除。最相似的动作是通过计算两个值的乘积得到的组合相似性发现的（第 11 行），并从 ${\mathcal{A}}_{\text{pred }}$ 中移除（第 13 行）。每个动作相似性的值生成一系列最大相似度分数。这些分数的平均值给我们设置的目标级相似度（第 14 行）。 ${S}_{\text{goal }}\left( {{\mathcal{A}}_{gt},{\mathcal{A}}_{\text{pred }}}\right) = \frac{1}{N}\mathop{\sum }\limits_{{i = 1}}^{N}{\operatorname{MaxSimilGoal}}_{i} \tag{2}$ PG2S。最终的相似度分数是我们的度量 PG2S，它是句子级和行动状态相似度的加权平均，其中 $\alpha$ 是加权因子，设为 0.5，以平衡两个分数的贡献： $\left( {1 - \alpha }\right) * {S}_{\text{plan }}\left( {{\mathcal{P}}_{gt},{\mathcal{P}}_{\text{pred }}}\right) + \alpha * {S}_{\text{goal }}\left( {{\mathcal{A}}_{gt},{\mathcal{A}}_{\text{pred }}}\right) \tag{3}$ 另一个问题是 KAS 采用集合交集，因此不相等的项不会被考虑到相似度计算中。这可能导致在目标相似度情况下存在同一动作，但主语不适合使用的问题。为说明这一点，考虑“走到桌子旁”与“走到月球”之间的动作。在 KAS 的情况下，由于三个要素中有两个相等，导致相似度分数为 0.67，而在 PG2S 中，相似度分数为 0。这一差异可归因于 KAS 不考虑自然语言的细微差别，而 PG2S 则考虑到了这些。

4 实验结果

本节展示了进行实验的结果，旨在测试所提出的架构的有效性。使用单个图像获得的结果被呈现并与最先进的工作中的环境结构感知进行比较。有关家庭场景任务的输出计划来自 ALFRED 数据集，使用 AI2Thor 环境。选择图像和环境后，我们为每个场景找到了与之相关的计划并保存了用于比较结果的真实计划。环境场景通过选择几种不同情况进行选择，以根据 ALFRED 选择的领域（例如：捡起物体并放置；捡起物体，加热或冷却它们，并将它们放置在其他地方；清洁物体并在光线下检查；等等）拥有各种复杂性和应用领域。

4.1 我们 PG2S 度量的评估

在 PG2S 开发的实验阶段，进行了系列测试以确保度量的正确性。具体地，我们比较了 ALFRED 计划与我们架构预测的计划及其破损版本。在测试阶段，从 ALFRED 数据集中选取了多个示例。获得的计划经过定性检查，并且可以验证多智能体架构生成的计划在动作序列方面是正确的。破损计划确保目标相似性将会得到尊重，并且在模糊情况下不会返回高水平的相似性。

以下是从 ALFRED 数据集中针对任务“将西红柿放入冰箱冷却，然后放在烤面包机旁”的真实计划示例：

向右转，穿过房间走到炉子右侧的台面。
拿起台面上的西红柿。
转身，走向冰箱。
将西红柿放入，关上冰箱，等一会儿，打开冰箱，将西红柿拿出来，关上冰箱。
转身，走向炉子。
将西红柿放在烤面包机前的台面上。与之对应的我们架构预测的同一任务的计划是：
走到厨房岛，位于厨房台面前。
拿起位于厨房岛上的西红柿。
走向厨房岛左侧的冰箱。
打开冰箱门。
将西红柿放入冰箱。- 关闭冰箱门。
等待西红柿冷却。
打开冰箱门。
从冰箱里拿出冷却的西红柿。
关闭冰箱门。
走到厨房柜台，那个柜台在冰箱的右侧。
将冷却的西红柿放在厨房柜台上的烤面包机旁边。

生成的计划和真实计划进行比较，得到的PG2S相似度百分比为 ${50}\%$ ，而KAS的百分比为 ${30}\%$ 。这两者之间最显著的区别在于到达目标所需的导航顺序。在真实计划中，厨房物体的到达方式与预测计划不同。此外，在冰箱中冷却西红柿所需的动作数量也存在显著差异。在预测计划中，有七个步骤，而在真实计划中，只有一个。然后，预测计划被破坏，通过将厨房更换为浴室，将西红柿更换为瓶子，并验证PG2S的相似度从 ${50}\%$ 下降至 ${25}\%$ ，同时KAS从 ${30}\%$ 降至 ${26}\%$ 。在这种情况下，PG2S的相似度减半，而KAS的计划修改影响不大。KAS进行的逐步比较并不允许分析目标在规划过程中是否得以实现；此外，词汇的交叉比较忽视了语义内容。表2显示了由于PG2S语义搜索而导致计划被破坏后相似度得分的下降。可用的计划呈现了一个与真实计划关联的ID “trail_ID”，以及在G-Planet数据集中可以找到的目标 ${}^{3}$ 。该度量不评估计划的成功得分，而是通过语义评估比较步骤。表2还展示了KAS和PG2S在破坏前比较得到的计划所获得的分数。在每种情况下，获得的相似度程度都优于KAS。两个度量在以下部分中使用。

图3. 用于实验测试的场景之一。从AI2Thor截取的屏幕截图用于执行规划。以下部分将评估计划纠正。

4.2 我们架构的评估

为了评估所提出的方法论，我们选择了公寓的十个不同房间，如客厅、厨房和卫生间。每个房间都捕捉了帧，如图3所示，该图描绘了一个厨房。生成计划的复杂性显而易见，因为整个场景由单个图像表示，而某些所需物体可能相当小。我们的测试表明，即使在复杂情况下，VLM也能够识别物体并感知它们之间的关系，从而能够定义出一个正确的计划。选择的十个环境使我们能够执行三十个任务，对于这些计划中的每一个，我们都通过四种方法获得了计划：两种使用单一代理架构，另外两种使用多代理架构。在单一代理和多代理评估中，计划都是使用描述环境的表格获得的，而不是单个图像。

表3展示了结果，强调KAS度量失败的实例，导致得到None值。这种失败发生是因为KAS度量无法评估不同长度的计划，这在“使用表格”的设置中很常见。

结果显示，使用单个图像，架构生成的计划与真实计划相似。此外，我们还证明了在多代理架构中使用单个图像可以获得更好的结果。

5 讨论

当前的技术前沿涉及使用传统成功率度量来评估计划，其中计划被认为是正确的情况下是执行导致预期结果。然而，这一度量在分析任务执行计划的正确性时并不充分或合适。特别是在计划复杂的情况下，应在执行前进行评估，以避免对环境造成损害或简单的执行失败，并确保时间和资源不在新的执行中被浪费。LLM的出现使得轻松生成之前需要模型训练或其他更复杂技术的计划成为可能。鉴于这些模型可能会“幻觉”或生成不正确的响应，因此可能存在错误。因此，这些不准确可能会导致基于成功率的评估时发生失败。我们的工作旨在定义一个新的PG2S度量，仅基于自然语言处理来评估计划，同时避免执行获得的计划，以确保结果的正确性。尽管所提出的度量在最终目标不够详细的情况下只能提供有限的评估，但在我们所知范围内，PG2S是第一次从尽可能通用的角度来解决这一问题。这为采用语言处理技术用于计划评估任务的新方法铺平了道路。未来的进展可能会改进所提出的度量。

表2. 计算预测计划和ALFRED注释计划之间的相似性值，其中预测计划可能由于步骤中的对象名称替换而被破坏。对于被破坏的计划，较低的相似值是优先的，因为它们表示与真实计划的差异更大。相反，对于未被破坏的计划，较高的相似值是可取的。

表3. 使用表格和G-PLANET数据集的真实计划，对30个不同场景中的预测计划和ALFRED注释计划进行相似性值比较。

6 结论

在本文中，我们首先介绍了一种多智能体规划框架，该框架利用视觉语言模型（VLM）的能力来改善具身智能体的规划，而无需预编码的环境数据结构。我们的方法通过利用单一的环境图像简化了输入要求，并通过多智能体系统增强了规划过程的适应性和有效性。这一创新解决了传统模型的局限性，后者过于依赖结构化数据，提供了一种更灵活和动态的规划机制，特别是在无结构的现实场景中尤为有效。

使用ALFRED数据集验证的实证结果表明，我们的方法的有效性，特别是在与现有指标（如KAS指标）比较时。随后，我们引入了一种新的计划评估指标。新提出的PG2S指标基于语义理解评估规划质量，而非严格的行动顺序，已显示出在捕捉计划执行变化方面的优越性能。

所提出的方法可以解决当前具身智能体规划中的一些局限性，并可能为VLM和多智能体系统的应用打开未来研究。未来的研究可能会探索我们的方法在更复杂多智能体环境中的可扩展性，以及整合更多样化的模态以增强智能体对其操作环境的理解。PG2S探索了计划评估中的新可能性，侧重于语义完整性而非严格的行动顺序。我们相信，研究界可以利用所提出的方法，将语义一致性视为计划成功的关键组成部分，特别是在需要高可靠性和安全性的应用中。