构建Agentic RAG系统（五）自反射 RAG、Speculative RAG

自反射 RAG 的优势在于。

Android女王

2168人浏览 · 2025-01-18 10:15:00

Android女王 · 2025-01-18 10:15:00 发布

八、自反射 RAG

自反射 RAG（Self-reflective RAG）是自然语言处理（NLP）中的一种高级方法，将检索方法与生成模型结合，同时引入自我反思和逻辑推理机制。它通过对检索与生成过程中的低质量结果进行自我校正（如重写问题、剔除不相关或虚假的文档）来提高整体输出质量。

关键特性

动态检索（按需适应性检索）
不同于传统 RAG 固定检索文档的方式，自反射 RAG 基于生成过程动态决定是否需要检索，并调用“反思标记”作为信号进行判断。
反思标记（Reflection Tokens）
检索标记： 判断是否需要从外部获取更多信息。
批判标记： 自评生成内容的质量、相关性或完整性，确保生成结果符合引文来源。
质量保证
LLM 使用批判标记自评输出质量（如是否有支持性证据或生成片段的逻辑一致性），显著减少幻觉问题。
灵活可控
通过反思标记，模型能根据任务需求动态调整行为，既能处理需检索任务，也能独立生成无需检索的内容。
性能提升
动态检索与自我批判的结合使自反射 RAG 在生成高质量、有证据支持的输出上优于传统 RAG 和标准 LLM。

自反射 RAG 的架构

核心流程

初始查询
查询进入系统，模型评估是否需要检索外部信息。
按需检索
如果不需要检索，直接由 LLM 生成回答；
若需要检索，系统调用知识库获取相关文档。
文档评估与筛选
检索到的文档会经过相关性评估，无关文档被剔除，若必要会重新检索。
生成与验证
LLM 根据相关文档生成初步回答。
对生成的回答进行“幻觉检查”（验证答案是否符合上下文，避免不支持的内容）。
自反思与迭代
系统批判性地评估回答质量，若不满意则重写查询或重新生成，直至输出准确答案。
最终输出
生成经过验证的准确回答作为最终结果。

基本的 RAG 流程是通过检索的文档生成输出内容。高级 RAG 方法（例如路由）允许 LLM 根据查询选择不同的检索器。自反射 RAG 在此基础上增加了反馈循环机制，可以在需要时重新生成查询或重新检索文档。状态机非常适合这种迭代过程，它定义了步骤（例如检索、查询优化）和状态转换，使系统能够动态调整，例如在检索到的文档无关时重新查询。

传统 RAG 和自反射 RAG 的区别

查询“美国各州名字的由来”：

传统 RAG：
检索大量文档（包括可能无关的信息），生成混杂回答，容易出现逻辑错误或矛盾。
自反射 RAG：
按需检索与州名来源相关文档，分段生成具体答案（如“得州命名的历史”“加州的名字来源”），逐段验证并整合，确保回答准确。

生成“描述一次暑假旅行”：

传统 RAG： 不必要地检索外部文档，浪费资源。
自反射 RAG： 识别任务无需检索，直接生成基于个人经验的回答。

总结

自反射 RAG 的优势在于动态决策能力、自我批判机制和输出质量保证，其通过反思与迭代机制大幅提升了回答的准确性、相关性和逻辑性，特别适用于需要证据支持的复杂任务或对高质量生成内容有严格要求的场景。

九、Speculative RAG

Speculative RAG 是一种智能框架，旨在使 LLM 在回答问题时更快速且更准确。它通过以下两种语言模型的分工实现这一目标：

一个小型的专用模型，快速起草潜在答案。
一个大型的通用模型，核查这些草稿并选择最佳答案。

为什么需要 Speculative RAG？

当你提出问题，尤其是需要精准或最新信息的问题（如“新款 iPhone 的最新功能是什么？”）时，常规的 LLM 通常存在以下问题：

可能“幻觉”：模型可能会自信地给出错误或虚构的答案。
依赖过时知识：如果模型没有接受最新数据的训练，就无法提供最新事实。
复杂推理耗时：如果需要处理大量信息（如长文档），模型可能响应缓慢。

这时 RAG 登场。RAG 从数据库或搜索引擎中检索实时相关文档，并利用这些文档生成答案。但问题在于，RAG 在处理大量数据时仍可能速度慢且资源消耗大。

Speculative RAG 通过增加以下专门分工解决了这个问题：

一个专门负责起草的 RAG 模型（快速生成初步答案）。
一个负责验证的通用 RAG 模型（确保最终答案准确）。

Speculative RAG 的工作原理

可以将 Speculative RAG 想象成一个两人团队解决难题的过程：

步骤 1：收集线索

“检索器”负责查找与问题相关的文档。例如，如果你问“谁在1980年的电影《朝九晚五》中扮演 Doralee Rhodes？”检索器会提取关于这部电影或音乐剧的文章。

步骤 2：起草答案（小型模型） 一个较小、速度更快的语言模型（专用起草者）基于这些文档工作：

快速创建多个可能答案的草稿。
为每个草稿提供推理依据（如说明“此答案基于此来源”）。

这个模型类似于快速绘制想法的初级侦探。

草稿 1：“Dolly Parton 在1980年的电影《朝九晚五》中扮演了 Doralee Rhodes。”
草稿 2：“Doralee Rhodes 是2010年音乐剧《朝九晚五》中的角色。”

步骤 3：验证最佳答案（大型模型） 一个较大、更强大的语言模型（通用验证者）随后介入，执行以下任务：

检查每个草稿的准确性和相关性。
根据置信度对草稿评分。
选择最佳草稿作为最终答案。
草稿 1 得到高分，因为它匹配了电影和问题。
草稿 2 得到低分，因为它与音乐剧相关而非电影。

最后系统自信地输出：“Dolly Parton 在1980年的电影《朝九晚五》中扮演了 Doralee Rhodes。”

为什么这种方法聪明？

更快的响应：较小的模型负责起草草稿，加快了速度。
更准确的答案：较大的模型专注于审查草稿，确保高质量结果。
高效资源利用：较大的模型不会浪费时间处理不必要的细节，只负责验证。

Speculative RAG 的主要优点

平衡性能：小模型快速起草，大模型验证准确性。
避免浪费精力：大模型只检查小模型建议的内容。
实际应用场景：适合回答需要推理和实时、最新信息的复杂问题。

Speculative RAG 就像拥有一个聪明的助手（专用起草者）和一个细致的编辑（通用验证者），确保你的答案既快速又准确！

RAG 方法对比

1. 标准 RAG：

工作方式：从知识库中检索文档并直接将其融入通用语言模型的输入中。
弱点：给通用语言模型增加了负担（需要同时理解文档并生成答案），无法区分相关和无关信息。

2. 自反射 RAG：

新增内容：通用语言模型学会分类检索文档是否相关，并根据这些分类调整自身。
弱点：需要对通用语言模型进行额外的指令微调，效率可能较低。

3. CRAG：

新增内容：使用外部自然语言推理（NLI）模型将文档分类为“正确”、“模糊”或“错误”，再将它们融入通用语言模型的提示中。
弱点：增加了一个额外的 NLI 步骤，降低了处理速度。

4. Speculative RAG：

关键创新：将任务分为两部分：
一个专用 RAG 起草者（较小的模型）快速生成多个草稿及其推理依据。
通用语言模型评估这些草稿并选择最佳答案。
具体流程：
问题输入：系统接收需要知识密集型的问题，并检索相关文档。
并行起草：专用起草者对检索文档的子集并行工作，每个子集生成：
草稿答案 (α)
相关推理 (β)。
验证和选择：通用语言模型评估所有草稿（α1、α2、α3）及其推理，并分配分数，选择最可信的草稿作为最终答案。