NAACL 2025 | 知识增强下的智能体规划

动作知识由定义的动作集合和控制动作转换的规则组成。这些规则基于动作之间的关系或特定任务的需求，描述了动作转换的逻辑和顺序。不同任务的动作知识被整合成一个动作知识库（Action KB），在动作生成和决策制定中起到关键作用，有助于减少规划幻觉。由于任务中涉及的动作知识非常多样，完全依靠人力手动构建既耗时又费力。为此，我们引入了GPT-4，让人类和模型协作提高构建效率。

Android女王

1271人浏览 · 2025-02-08 17:15:46

Android女王 · 2025-02-08 17:15:46 发布

论文题目：KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents
本文作者：朱雨琦（浙江大学）、乔硕斐（浙江大学）、欧翌昕（浙江大学）、邓淑敏（新加坡国立大学）、吕世伟（蚂蚁集团）、申月（蚂蚁集团）、梁磊（蚂蚁集团）、顾进捷（蚂蚁集团）、陈华钧（浙江大学）、张宁豫（浙江大学）
发表会议：NAACL 2025 Findings
论文链接：https://arxiv.org/abs/2403.03101
代码链接：https://github.com/zjunlp/KnowAgent

一、引言

大型语言模型（LLMs）在复杂推理任务中展现了极大的潜力，但在处理更复杂的挑战时，尤其是在通过生成可执行动作与环境进行交互时，仍显不足。这主要是因为智能体缺乏内置的动作知识，导致它们在任务解决过程中无法有效地指导规划轨迹，从而引发规划幻觉。

为了解决这一问题，我们提出了KnowAgent，旨在通过利用外部动作知识来增强轨迹合成，缓解其中出现的规划幻觉问题。我们的方法包括几个关键步骤。首先，我们提出了动作知识库，其中整合了与特定任务相关的动作规划知识。该数据库可以作为信息的外部储备，指导模型的动作生成过程。然后，通过将动作知识转化为文本，我们使模型能够深入理解这些知识，并进行轨迹合成。最后，通过一个知识型自我学习阶段，模型在迭代中不断优化其对动作知识的理解和应用。这一过程不仅增强了智能体的规划能力，也提升了其在复杂情境中的应用潜力。在HotpotQA和ALFWorld数据集的实验中，KnowAgent具有不错的性能表现。此外，我们也分析证明了该方法在减少规划幻觉方面的有效性，并展示了从大型语言模型中提取精炼动作知识的可行性，从而减少人工并为后续应用拓展提供新的方向。

二、方法

如图所示，我们的方法首先定义了动作知识这一概念。接着，我们让模型利用这些知识生成规划路径，并通过知识型自我学习机制不断优化这些路径，从而迭代地增强模型能力。

1. 动作知识的定义

2. 动作知识的注入

图中展示了从动作知识到文本的转换过程。首先，我们通过识别任务特定需求的动作，利用先前的数据集分析和LLMs的内在知识，建立动作知识库。然后将这些信息转化为文本格式，以便后续操作。例，引用HotpotQA中的一条动作规则 - Search: (Search, Retrieve, Lookup, Finish)。这条规则指出，搜索可以通往多种路径：继续作为搜索、更改为检索或查找，或进展到结束。利用动作知识，模型使用这些见解来简化任务的规划过程。为了促进轨迹的合成，我们设计了特有的prompt，以补充基本任务描述，提供给大模型更多规划信息。

3. 基于知识的自学习进行规划路径优化

在这一阶段，我们引入了知识驱动的自我学习。目标是通过迭代微调，帮助模型更深入地理解行动知识。这个过程从初始训练集和未训练模型开始生成初始轨迹，经过过滤后用于进一步训练形成新模型。新模型在初始数据集上再评估，生成新的轨迹，这些轨迹与初始轨迹一起经过过滤和合并后用于进一步微调模型。从而在迭代过程中使模型能力得到进一步提升。

三、实验分析

KnowAgent在不同的规模模型和数据集中有着较好的表现。同时，我们也在ALFWorld上进行了额外实验，将未经过微调的KnowAgent*与ReAct进行比较。结果也验证了动作知识本身的有效性。

对于实验结果，我们进行了以下分析：

1. 动作知识的增强作用：如图所示，在HotpotQA数据集上使用Llama系列模型进行的消融实验证明了动作知识的效果。无论迭代次数多少，使用动作知识的模型表现优于未使用动作知识的模型。一个有趣的现象是，随着迭代次数的增加，两者的性能差距显著扩大，表明引入动作知识的优势愈发明显。这可以归因于动作知识与自我学习之间的良性循环：在动作知识的引导下，模型能够合成高质量的轨迹用于迭代训练，这反过来帮助模型更好地吸收动作知识，合成更优质的轨迹。

2. 迭代训练对模型能力的提升：图中对不同模型的迭代训练效果进行了分析。增加迭代次数从一次到两次显著提升性能，继续增加到四次虽然仍有提升，但收益逐渐减少。与以往研究相符，论证了迭代自学习能有效增强模型对训练数据的理解。这也反映了“温故而知新”的学习原则。我们还探索了其他基础模型如Vicuna-7b和Mistral-7b，结果表明方法在不同预训练和微调模型中具有适用性。此外，不同模型间的性能差异揭示了它们在吸收和利用结构化外部知识上的能力差异。

3. 动作知识对规划幻觉的缓解：表中展示了不同方法生成的无效和顺序错误动作的统计数据。FireAct仅涉及搜索和完成动作，因此被排除在分析之外。结果显示，整合动作知识显著减少了错误动作的频率和无效路径的可能性，从而提高了特定任务的模型表现。

4. 错误分析：在分析KnowAgent的能力时，我们发现了其局限性，尤其是在处理复杂查询和总结长文本时。它在有效提取关键信息方面存在无法准确响应的问题。核心问题在于其处理长上下文时推理和记忆能力的不足。因此，生成的回答可能不正确或与提出的问题不符。在HotpotQA中，我们识别出两种主要错误类型：不一致错误和总结错误，具体细节和其他相关分析我们在文章中有进一步的讨论。

四、总结

在这项研究中，我们介绍了KnowAgent，这一框架旨在通过将外部动作知识纳入合成轨迹来减轻规划幻觉。我们的方法利用这些知识来引导模型的动作生成，并通过知识型自我学习阶段实现持续改进。通过对各种模型的实验，结果表明KnowAgent超越或与其他基准方法持平，展示了整合外部动作知识以简化规划过程和提高性能的优势。

五、如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。