AAAI 25 | 通过自适应多层次检索增强大模型的知识图谱问答

今天跟大家分享一篇来自香港城市大学、中国科学技术大学、腾讯优图实验室、北京大学的一篇论文：通过自适应多层次检索增强大模型的知识图谱问答。

朝阳区靓仔_James

645人浏览 · 2025-01-20 19:42:21

朝阳区靓仔_James · 2025-01-20 19:42:21 发布

Github: https://github.com/Applied-Machine-Learning-Lab/AMAR

核心问题

近年来，大语言模型（LLMs），如 GPT-4 和 LLaMA 等，展现了卓越的自然语言处理能力。然而，在处理需要复杂知识推理的任务时，LLMs 往往面临以下问题：

幻觉问题（Hallucination）：LLM 会生成与事实不符的答案，尤其是在其训练语料中未包含目标知识时。这种问题在医疗、法律和安全等高可靠性领域尤为突出。
知识时效性问题：由于 LLM 的训练数据通常是静态的，模型缺乏实时更新的知识库。当问题涉及最新信息或特定领域的专业知识时，LLM 往往力不从心。

为了解决上述问题，知识图谱问答（Knowledge Graph Question Answering, KGQA）被视为一种潜在的有效方案。知识图谱（KG）是存储结构化事实的数据库，采用三元组形式（实体、关系、实体或字面值）表达知识。KGQA 通过从知识图谱中检索相关信息，能够为 LLM 提供可靠且结构化的事实依据。然而，现有 KGQA 方法面临以下挑战：

检索噪声问题：无论是嵌入方法还是检索方法，现有工作无法有效过滤检索到的无关或部分相关信息，导致 LLM 推理时被噪声干扰。
多层次知识整合不足：很少有工作同时利用实体、关系、子图等多层次信息，缺乏对不同类型知识之间共性的对齐和统一建模。

方法与框架

AMAR 提出了一种新的方法，通过多层次的知识检索和增强机制，提升 LLM 的推理能力并减少噪声。核心模块包括：

自对齐模块（Self-Alignment Module）：

多层次知识（如实体、关系和子图）分别被线性化为文本，然后被映射为提示嵌入（prompt embeddings）。通过自注意力和交叉注意力机制，对齐不同检索信息中的共性（如共同提到的实体或关系），从而增强关键知识并减少不相关信息的干扰。

逻辑表达式生成与执行：

AMAR 生成结构化逻辑表达式（如 S 式表达式），随后将其转换为 SPARQL 查询语言并在知识图谱上执行，最终获得答案。

实验与结果

主要结果： AMAR 在 Hits@1、F1 和准确率等指标上均超越 22 种基线模型，在 WebQSP 和 CWQ 数据集上有显著提升。 AMAR 表现优于直接将检索数据作为上下文输入的方式，证明其在减少噪声干扰和提取关键信息层次效果显著。

消融实验：去掉自对齐模块或相关性门控模块会显著降低模型性能，证明这些模块是 AMAR 成功的关键。

其他分析：检索信息的多样性（实体、关系、子图）对于性能提升至关重要，其中关系的贡献最大。相较于直接输入检索文本，AMAR 的计算效率更高，训练时间和显存占用均显著减少。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述