多模态RAG驱动的激光粉末床熔融中使用大语言模型的异常检测与分类

1{ }^{1}1康涅狄格大学机械、航空航天与制造工程学院，Storrs, CT 062692{ }^{2}2康涅狄格大学计算机科学学院，Storrs, CT 062693{ }^{3}3新泽西州立大学罗格斯分校机械与航空航天工程系，Piscataway, NJ 08854邮箱: hongyi.3.xu@uconn.edu本研究提出了一种新颖的多模态检索增强生成框架，利用从文献中检索到的信息（包括

Paper易论

1430人浏览 · 2025-05-24 22:40:55

Paper易论 · 2025-05-24 22:40:55 发布

Kiarash Naghavi Khanghah ${ }^{1}$ , Zhiling Chen ${ }^{1}$ , Lela Romeo ${ }^{1}$ , Qian Yang ${ }^{2}$ , Rajiv Malhotra ${ }^{3}$ , Farhad Imani ${ }^{1}$ , Hongyi Xu ${ }^{1 *}$

摘要

${ }^{1}$ 康涅狄格大学机械、航空航天与制造工程学院，Storrs, CT 06269 ${ }^{2}$ 康涅狄格大学计算机科学学院，Storrs, CT 06269 ${ }^{3}$ 新泽西州立大学罗格斯分校机械与航空航天工程系，Piscataway, NJ 08854

邮箱: hongyi.3.xu@uconn.edu

摘要

本研究提出了一种新颖的多模态检索增强生成框架，利用从文献中检索到的信息（包括图像和描述性文本）而非训练数据集，在各种增材制造过程中实现自动化的异常检测。该框架整合了科学文献中的文本和图像检索以及多模态生成模型，以在激光粉末床熔融环境中执行零样本异常识别、分类和解释生成。所提出的框架在来自橡树岭国家实验室的四个L-PBF制造数据集上进行了评估，这些数据集涵盖了不同的打印机品牌、型号和材料。此评估表明，该框架无需额外训练即可在多种图像上表现出适应性和泛化能力。使用Qwen2-VL-2B和GPT-4o-mini作为MLLM的比较分析显示，GPT-4o-mini在制造异常分类方面优于Qwen2-VL $2 B$ 和比例随机基线。此外，对RAG系统的评估确认，通过减少幻觉风险并提供额外信息，结合检索机制可使平均准确率提高 $\%$ 。所提出的框架可以通过整合新兴研究进行持续更新，从而无缝适应AM技术的发展趋势。这种可扩展、自动化且具备零样本能力的框架简化了AM异常分析，提高了效率和准确性。
关键词：多模态大语言模型；激光粉末床熔融 (L-PBF)；检索增强生成；增材制造

1. 引言

本工作的目标是评估建立一个生成模型的可行性，该模型利用基于文献的信息来检测和分类未见过的材料图像中的异常，而无需依赖内部实验数据。

具体来说，我们专注于增材制造 (AM) 过程中的异常。

图1：(a) 各种AM工艺，每种都有独特的特性。(b) 来自AM研究的大量数据涌入。© 不同AM工艺中的各种缺陷。(d) 手动审查处理大数据集的挑战。(e) 我们提出的基于RAG的方法在应对这些挑战方面的有效性。

增材制造 (AM) 通过各种制造工艺（如图1a所示），彻底改变了制造业，允许生产复杂设计，减少材料浪费，并提供了卓越的设计灵活性 [1, 2]。尽管AM技术取得了进展，但更广泛的采用仍面临重大挑战，特别是存在可能影响制造零件性能和可靠性的缺陷和异常 [3]。AM中的异常和缺陷可以是多样且依赖于工艺的 [3] （图1c）。例如，光固化树脂打印常遇到收缩和密度不均的问题 [4]，粘结剂喷射可能会遭受分层和粉末分布缺陷 [5]。对于激光粉末床熔融工艺，常见缺陷包括孔隙率、球化和表面粗糙度 [6, 7]。鉴于AM技术的多样性以及可能出现的缺陷范围，识别和解决这些问题以提高AM零件的整体质量和可靠性至关重要。

通常，异常和缺陷检测依赖于无损检测技术和基于机器学习的方法 [3]。然而，这些方法要么劳动密集型，需要大量数据，耗时长，或者在实时质量控制中往往不切实际。此外，分析测试结果并进行质量分析需要人类专业知识，这容易出错，并需要现有科学论文或公司记录的见解 [8]。随着AM技术的快速发展，针对缺陷和异常检测的科学文献呈指数增长（图1b）。虽然这些现有的信息是一个宝贵的资源，但也带来了重大挑战。这些方法不仅耗时，而且容易忽视和出错（图1d）。此外，解释AM工艺中的异常需要领域专业知识，使得综合不同研究论文的发现更具挑战性 [9]。

大语言模型 (LLMs) 和多模态大语言模型 (MLLMs) 已越来越多地应用于增材制造领域 [10-13]，以增强工艺控制和异常检测 [11, 14-16]。例如，AnomalyGPT [17] 是一种利用MLLM的工作流程，能够在制造图像中通过少量样本推理技术识别异常。此外，Farimani等人 [11] 表明，通过使用MLLMs，这些模型不仅可以自主分析打印层的图像，识别诸如挤出不一致或层错位等异常，还可以调整打印参数。这种方法旨在提高增材制造的质量，同时减少对人工干预的需求。然而，大多数这些研究手动整合了专家知识或参考图像（例如，正常和异常零件的图像），这可能导致忽视和主观性。此外，它们通常需要对MLLMs进行微调，这在处理小异常数据集时成为问题 [16-18]。因此，采用了基于对比语言-图像预训练 (CLIP) 的零样本模型，如 AnomalyCLIP [20]、WinCLIP [21]、M3DM-NR [22]、ClipSAM [23]、KAnoCLIP [24] 等来解决这一问题。然而，当检测之前未见过的制造异常时，其性能有限，并依赖于CLIP模型中的预定义异常定义 [25, 26]。即使是先进的模型如VMAD[27]，仍然受到需要手动定义异常的限制，限制了其对新型异常和缺陷类型的适应性。

检索增强生成 (RAG) [28] 提供了一种有希望的解决这些挑战的方法。RAG系统能够从科学论文中检索相关信息，使其特别适合从广泛的AM研究中提取与异常相关的信息 [29, 30]。目前关于使用检索信息进行异常检测和分类的研究有限，主要集中在基于文本的检索用于异常检测 [31, 32]。为了解决这一局限性，我们提出了一个新颖的基于RAG的多模态系统，专门用于AM过程中的异常检测。如图1e所示，该系统旨在简化从文本和图像格式中提取关键AM异常信息的过程 [33]。然后，它利用MLLM检测和分类测试图像中的异常。

图2：所提议框架的异常检测简化工作流程。

如图2所示，所提出的基于RAG的框架集成了文本和图像检索、分类和生成模型，允许从广泛的AM研究文献中自动提取和综合信息，包括光固化树脂打印、材料喷射、粘结剂喷射、材料挤压、片材层压、激光粉末床熔融和定向能量沉积。本文呈现的案例研究特别关注激光粉末床熔融。本工作的贡献总结如下：

提出了一种新颖的基于多模态RAG驱动的框架（图2），用于检测和分类各种AM过程中的异常，利用从科学论文中提取的图像和文本信息。这种方法解决了文献过载、缺乏训练数据以及需要手动提供参考图像（例如相似的异常或正常图像）和信息等关键挑战。
开发了一个端到端管道，将文本和图像检索、分类和生成模型集成在一起，以提取、综合和系统组织异常相关信息。

图3：所提议框架的全面工作流程 - 该框架由三个主要阶段组成：(a) 检索阶段，检索与异常检测、根本原因和预防策略相关的图像、图像描述和文本信息；(b) 生成阶段，利用检索到的信息为MLLM提供足够的上下文以检测异常；© 输出模块，将检测到的异常类型汇总为一热编码列表，便于模型准确性评估。此外，该模块还提供了全面的见解，包括基于检测到的图像异常的原因和预防措施。
3) 突出了框架的适应性，展示了其支持AM研究发展和新兴工艺的能力，通过将其应用于不同的数据集。
4) 对小型闭源模型和大型开源模型的分类能力进行了比较分析，以评估其在异常检测中的有效性和底层推理。

本文其余部分组织如下：第2节介绍所提议的方法。第3节介绍了案例研究中使用的数据集。第4节讨论了结果并提供了所提议方法的定量评估。第5节总结了研究。

2. 方法论

所提议的框架由两个主要阶段组成（图3）。在第一阶段，双RAG系统被用来检索有关目标异常的相关信息。然后将检索到的数据作为结构化提示传递给第二阶段，即生成阶段。该提示包括带有异常的样本图像、其特征的详细视觉描述以及上下文信息。提示将输入到MLLM中，该模型预测测试图像中异常存在的可能性。最后，输出模块汇总图像中所有已识别的异常，并生成简洁而详尽的补充信息。这确保了异常分类的结构化和信息丰富的摘要。在以下子部分中，将详细解释每个组件。

2.1 检索阶段

检索阶段利用RAG技术收集异常分析所需的多模态数据（图3a）。该阶段包括两个并行的检索过程，分别针对视觉和文本数据。

图像检索：为了从文档中检索相关图像，ColPali框架 [34] 被用来处理包含异常相关信息的PDF文件，作为管道的图像检索组件。与依赖光学字符识别的类似方法不同，ColPali直接索引和检索文档中的视觉内容 [35]。最初设计用于生成基于文本响应查询的最相关文档图像，这种方法可以改进（图4）以专门检索包含目标异常的图像，前k个图像保存以供进一步分析。

一旦检索到相关图像，Qwen2-VL [36] 模型被用作生成组件，分析视觉数据以生成关于异常的详细见解或描述。保存检索过程中的最高排名图像对于启用后续生成阶段的基于图像的检测过程至关重要。

文本检索：通过实施使用GPT-4o-mini [37] 和text-embedding-ada002 [38] 的并行文本集中RAG管道。text-embedding-ada-002模型作为嵌入组件，将文本信息转换为高维向量表示，捕捉语义意义和上下文关系 [39]。这些嵌入允许高效相似性搜索，使系统能够识别对给定查询的最相关文本段落。

该文本检索过程超越了主要关注视觉特性的图像检索部分。除了分析异常的视觉方面，它还收集检测方法、根本原因和预防策略的信息。因此，该框架不仅分类和检测异常，还提供了其起源和潜在缓解措施的详细分析。此外，如果检索到的图像缺乏清晰的异常细节（例如低分辨率图像、高级示意图）或不可用，文本检索为模型提供了额外信息，以准确检测和分类异常。图4展示了用于检索下一生成阶段所需信息的查询。

图像检索查询

1：从提供的资源中严格检索与{anomaly_name}相关的图像。2：分析检索到的图像并包括视觉特征以帮助异常识别。

文本检索查询

从提供的资源中独家检索有关{anomaly_name}的综合信息。确保响应包括以下详细信息：

详细描述
1. 常见原因
1. 视觉特征
1. 预防策略
  图4：检索查询，用于收集与目标异常相关的文本和图像信息。

异常检测提示：

仔细分析测试图像并确定{anomaly_name}是否可能。使用参考图像和附加科学信息中的信息支持您的评估。提供简短、明确且有理据的回答，并附上支持证据。以下是测试图像：{每张图像：{image_stage_description}: {test_image}}。参考图像显示了{anomaly_name}的一个示例：{reference_image}+{reference_image_description $\mathbf{n}}。用它进行比较。这里是有关{anomaly_name}的附加科学信息：{info_anomaly_text}。

异常分类提示：

这是关于异常是否存在：{detection_results}。如果在任何一张测试图像中检测到{anomaly_name}，返回1；否则，返回0。请勿在响应中提供任何其他解释或推理。

异常解释提示：

鉴于在制造过程中检测到的异常：{classification_results}，提供详细的科学解释，涵盖以下内容：

根本原因
1. 预防策略
1. 其他见解
  确保响应精确、技术性强，并基于提供的信息：{info_anomaly_text}

图5：用于异常检测和解释的生成提示

2.2 生成阶段

在生成阶段（图3b），通过视觉识别和文本分析详细合成和分析早期检索阶段获得的多模态数据。此阶段解决两个关键目标：带解释的异常检测和分类。

异常检测：使用检索到的异常图像和文本信息，利用开源的Qwen2-VL-2B模型 [40] 和闭源的GPT-4o-mini [37] 来通过图5提供的提示预测异常类型。每个MLLM分析最佳检索图像的视觉特征以及查询中的上下文信息，生成有根据的分类。这些MLLM被用于检测第3节中描述的数据集图像中的异常。给定一系列可能的异常，逐个进行检测，确保模型基于提供的提示（图5）系统地评估每种异常类型。每个异常的检测过程重复三次，为输出模型内的分类任务提供更稳健的结果。

异常分类和解释（输出模块）：在检测所有异常后，使用LLM为每个异常合成响应，并使用一热编码分类总结结果（提示如图5所示）。框架随后计算每种异常类型的平均预测，增强了评估的可靠性。接下来，系统使用已识别的异常类型指导后续的解释和预防步骤。为此，集成了GPT-4o-mini作为生成模型。它将分类结果与早期RAG管道检索到的文本结合起来，综合出全面的解释。该解释包括：

异常特征的详细说明。
1. 对其潜在根本原因的分析。
1. 针对未来过程中类似异常的预防措施和建议。
这种集成方法确保了异常的系统分类，使系统能够提供针对每个已识别异常定制的可行、情境感知的见解（图3c）。

3. 制造异常数据集

本研究重点在于L-PBF工艺，因其作为广泛使用的增材制造技术的重要性。为了评估我们提出的框架，我们利用了橡树岭国家实验室 [41] 提供的异常数据集，其中包含逐层粉床图像。每张图像可能包含以下一种或多种异常：铺粉器跳跃、铺粉器条纹、铺粉不完全、膨胀、碎屑、超高、烟尘、过度熔化、局部亮点、粉末飞溅、粉末堆积、局部暗区或打印错误。这些异常在ORNL数据集的文件中标注。此标注文件随后被转换为每种测试样本的文本格式，列出所有存在的异常，作为地面实况或人类参考响应。本研究中使用的激光粉末床熔融（L-PBF）数据集来源于“EOS M290”和“AddUp FormUp 350”打印机，每台打印机使用不同的材料，如表1所示。

表1. 从ORNL数据集中获取的L-PBF测试样品信息，用于评估所提议的框架 [41]

打印机品牌和型号	材料	测试图像
AddUp	马氏体钢	26
FormUp 350	17-4 PH不锈钢	14
EOS M290	钢	9
EOS M290	DMREF	5
EOS M290	因科镍718

(a) (b)

图6：来自ORNL数据集 [41] 的L-PBF可见光测试样本：(a) 熔化后捕获的图像 (b) L-PBF过程中粉末铺展后捕获的图像（见表1）。

这些数据集包含了多模态传感器数据，包括可见光（VL）、时间积分近红外（TI-NR）和宽频红外（IR）成像。由于数据集包含地面实况文件，而我们提议的模型不需要训练数据，我们仅用这些图像进行测试。在本研究中，特别使用了可见光图像进行异常检测，其中一张图像在熔化后捕获，另一张在粉末铺展后捕获，如图6所示。对于我们在基于RAG的研究中使用的数据集，
我们专注于与L-PBF工艺相关的文章，这是一种广泛采用的增材制造技术。RAG的文档信息数据集（表2）包括调查L-PBF工艺中各种缺陷类型和异常的科学论文。表2通过辅助LLM的手动审查，总结了每篇文档中明确陈述或概念暗示的异常和缺陷。
表2. 关于L-PBF工艺中缺陷类型和异常的论文数据集

文档	主题	可用异常及相关缺陷（明确和概念上）	参考
Scime, L., et al., Additive Manufacturing, 2020. - Oak Ridge National Laboratory (ORNL), 2023.	PBF逐层异常检测	铺粉器跳跃，铺粉器条纹，铺粉不完全分布，碎屑，超高，粉末飞溅，喷嘴失火，孔隙率，零件损坏，烟尘打印错误，局部暗区，局部亮点，粉末堆积，粉末飞溅，条纹边界，边缘膨胀	$[6, 41]$
Sahar, T., et al., Results in Engineering, 2023.	基于ML的L-PBF异常检测	孔隙率，球化，裂缝，缺乏融合，杂项缺陷（铺粉器跳跃，零件失效），过度熔化	[42]
Colosimo, B.M. and M. Grasso, Procedia CIRP, 2020.	L-PBF中的原位监控：挑战与机遇	几何变形（打印错误，铺粉器跳跃， …），孔隙率，脱层，微观结构不均匀性，表面缺陷	[43]
Chebil, G., et al., Journal of Materials Processing Technology, 2023.	深度学习用于光学监测飞溅	飞溅，缺乏融合，局部亮点	[44]
Peng, X., et al., Sensors, 2022.	PBF缺陷检测中的多传感器融合	球化，孔隙率，开裂，表面缺陷	[45]
D’Accardi, E., et al., Progress in Additive	检测和定位L-PBF缺陷	孔隙率，表面缺陷，局部	[46]

Manufacturing, 2022.		亮点，缺乏融合
Snow, Z., et al., 2023, Oak Ridge National Laboratory (ORNL).	ML传感器融合用于L- PBF缺陷检测	飞溅，过度熔化，铺粉器条纹，条纹边界，孔隙率，缺乏融合，局部亮点，裂缝	[47]
Cannizzaro, D., et al., DATE Conference, 2021.	图像分析与ML用于AM缺陷检测	飞溅，发红（过度熔化，局部亮点），水平缺陷（铺粉器条纹），垂直缺陷（铺粉器跳跃）	[48]
Mahmoud, D., et al., Applied Sciences, 2021.	ML 在L-PBF 工艺监控中的应用	铺粉器跳跃，铺粉器条纹，铺粉不完全分布，碎屑，超高，粉末飞溅，过热（过度熔化），边缘膨胀，卷曲，收缩，球化，欠熔化，孔隙率，缺乏融合，裂缝，脱层	[49]
Mohammadi, M.G. and M. Elbestawi, Procedia Manufacturing, 2020.	使用ML进行L-PBF的实时监控	孔隙率，微观裂纹，空洞和表面缺陷	[50]
Okaro, I.A., et al., Additive Manufacturing, 2019.	半监督ML用于L-PBF故障检测	球化，过热（过度熔化，局部亮点）	[51]
Chicote, B., et al., Procedia CIRP, 2022.	L-PBF在线/离线缺陷检测	几何间隙（打印错误），孔隙率，裂缝，缺乏融合	[52]

4. 结果

第3节介绍的数据集用于评估所提议方法在异常检测和分类中的性能。可以采用几种指标来评估生成响应的准确性，包括 Recall@K ，Precision@K，F1 score@K [53-55]，双语评估替补 (BLEU) [56]，基于召回的摘要评估替补 (ROUGE) [57] 和基于嵌入的相似性 [58]，后者测量生成文本和参考文本之间的相似性。然而，由于本研究专注于二元分类（异常 vs 正常）而非纯文本生成，需要明确的Yes/No决策。因此，
参考文本被转换为异常的一热编码表示（例如，异常为1，正常为0）。输出模块中的异常分类生成预测的一热编码表示。通过这种结构化格式，使用公式1计算数据集中每个异常的分类准确性。此外，通过对所有图像的准确性结果取平均值，获得每个异常的整体准确性。

$\text { Accuracy }=\frac{\text { True Positives }+ \text { True Negatives }}{\text { Total Cases }}$

该框架使用Qwen2-VL-2B模型和GPT-4o-mini模型作为主要的MLLM进行异常检测。如图7所示，所有L-PBF类别的准确性结果显示，GPT-4o-mini比Qwen2-VL-2B模型平均高出 $\%$ 。

图7：使用不同MLLMs在各种L-PBF图像数据集上的预测性能得分。
(b)

图8：（a）AddUp FromUp 350（b）EOS M290 - 17-4 PH不锈钢（c）EOS M290 - DMREF（d）EOS M290 - Inconel 718所需异常的异常检测准确性

使用相同的提示和输入图像进行的详细性能分析，如图8和附录中的表格A1-A4所示，表明Qwen2-VL-2B并未超过比例随机基线，并产生大部分相同的结果。这表明，给定检测提示，Qwen2-VL-2B一致预测异常存在，即使在没有异常的情况下也是如此。换句话说，它倾向于将每个实例标记为异常，而不是区分正常和异常情况。此外，比例随机基线 [59] 显示，数据集中的异常分布并不均匀。这种不平衡是可以预期的，因为ORNL数据集 [41] 中的仪器保持不变，导致一些异常频繁出现，而其他异常很少出现。这种数据集不平衡突显了使用公式1中定义的准确性指标的重要性，该指标考虑了MLLM正确检测异常不存在的情况。如果不考虑这一点，像Qwen2-VL-2B这样简单预测异常存在的模型会获得较高的F1分数和灵敏度，从而误导性地夸大其性能评估。

另一方面，使用相同输入提示的GPT-4o-mini表现出显著更强的能力来区分异常和正常情况。因此，与比例随机基线 [59] 和Qwen2-VL-2B模型相比，它始终实现了更高的平均准确性。然而，GPT-4o-mini在某些情况下仍然遇到挑战，例如检测边缘膨胀、条纹边界和烟尘。这些挑战可能源于检测任务中检索到的信息不足或MLLM难以识别特定异常。由于LLM的黑盒性质 [60]，精确定位确切原因仍然具有挑战性。GPT-4o-mini的一个关键优势是，当它未能检测到异常时，不像Qwen2-VL-2B那样过度检测。相反，它倾向于避免错误的异常检测，最终导致更可靠的准确性评估。

在检测和分类所有图像中的异常后，框架生成一个解释，详细说明为什么会出现这些异常，随后提供减轻其影响的预防措施。图9展示了一个来自EOS M290 - 17-4 PH不锈钢数据集的例子，包括地面实况、预测异常及其解释。

测试图像：（EOS M290 - 17-4 PH不锈钢）

制造过程中的真实异常：
铺粉不完全、边缘膨胀、烟尘

制造过程中的预测异常：

铺粉不完全、边缘膨胀、过度熔化

制造过程中的异常解释：

8888 1. 铺粉不完全
根本原因：铺粉不完全是由于铺粉机构存在问题（例如，受损的铺粉刀片）、不当的铺粉速度或角度，或不利的粉末特性引起的。这些因素会导致粉末在整个床层上分布不均，从而产生间隙或薄区域。

预防策略：定期维护铺粉刀片以防损坏，控制铺粉速度和角度，并在铺粉后检查粉末床以识别和解决不完整区域，可以帮助防止这种异常。
- 其他见解：监测粉末特性（例如，流动性、粒径分布）并确保铺粉机构清洁且无碎屑，可以进一步提高粉末铺展的均匀性。
8889 2. 边缘膨胀
- 根本原因：边缘膨胀是在打印过程中因零件边缘或角落附近的能量密度增加引起，通常由于熔化轨道缩短和热传导变化所致。
- 预防策略：优化激光功率、扫描策略和零件方向可以最小化能量密度的影响。此外，监测热分布和控制冷却速率有助于减轻边缘膨胀。
- 其他见解：利用仿真工具预测打印过程中的热行为并相应调整参数，可以提高尺寸精度和表面光洁度。
8889 3. 过度熔化
- 根本原因：过度熔化是由于激光扫描期间的高功率密度设置引起的，通常由扫描速度增加或关键孔模式熔化的控制不足导致熔池不稳定。
- 预防策略：小心校准激光功率密度和扫描速度，同时监测熔池温度和连续性，可以防止过度熔化及相关的空洞或不规则现象。
- 其他见解：实施原位监控系统实时跟踪熔池特性，可以提供即时反馈并允许调整以防止过程中过度熔化。
总之，解决这些异常需要一种综合方法，包括定期维护、工艺优化和实时监控，以确保制造过程中的高质量成果。
图9：来自EOS M290 - 17-4 PH不锈钢的测试图像的预测异常和解释

有时，添加RAG系统可能会带来更多问题而非解决问题，尤其是在幻觉方面 [61]。RAG系统设计基于从其他来源检索到的信息以提高准确性，但在某些情况下可能会加剧该问题 [62]。如果RAG组件配置不当 [63, 64]，则可能通过创建虚假的准确性感而降低可靠性。为确保本研究中不会发生这种情况，对表现最佳的MLLM——GPT-4o-mini进行了额外评估，以评估纳入RAG系统进行附加信息检索的效果。表2中的结果显示，与仅依赖预训练知识的模型相比，纳入RAG系统提高了预测准确性。这一发现与现有研究一致，也表明利用科学文献可提高性能。

表3. 有无检索信息的平均准确性比较

测试案例数据集	有检索	无检索
AddUp FromUp 350	$0.620\mathbf{0 . 6 2 0}$	0.610
EOS M290 - S	$0.621\mathbf{0 . 6 2 1}$	0.471
EOS M290 - D	$0.521\mathbf{0 . 5 2 1}$	0.401
EOS M290 - I	$0.738\mathbf{0 . 7 3 8}$	0.523

5. 结论

所提议的基于RAG的框架为AM中的异常检测挑战提供了一种新颖且高效的解决方案。通过集成先进的多模态检索和生成模型，我们的系统能够实现AM过程中异常的自动化和情境感知的识别和分类。通过结合图像和文本检索与最先进的生成模型，我们证明了仅基于文献信息建立异常检测和分类模型的可行性，而无需内部实验数据。此外，框架持续整合新研究文献的能力确保了其对不断发展的AM技术的适应性。

未来的工作将集中在通过引入更先进的图像检索模型和改进多模态生成过程来提高模型的准确性，以减轻异常和缺陷检测中的黑盒性质并增强准确性。尽管当前模型在分类和检测准确性方面存在局限性，但该框架显示出作为实时增材制造缺陷检测的强大且实用工具的潜力。它具有显著推动行业自动化质量控制的潜力。

致谢

作者感谢国家科学基金会资助CMMI-2414398、CMMI-2001081、CMMI-2336448、CMMI-2434519和DMR-2102406的财务支持。KNK还衷心感谢康涅狄格大学普拉特&惠特尼先进系统工程奖学金的支持。此外，作者感谢橡树岭国家实验室的橡树岭领导计算设施（OLCF），该设施由UT-Battelle, LLC为美国能源部管理，合同编号DE-AC05-00OR22725，为本研究中使用的数据集提供访问权限。

附录

表A1. AddUp FromUp 350的性能指标

异常	随机基线	准确性
		Qwen2-VL-2B	GPT-4o-Mini
铺粉器跳跃	0.96	0.92	0.19
铺粉器条纹	0.15	0.15	0.58
铺粉不完全	0.77	0.77	0.73
膨胀	0.23	0.23	0.81
碎屑	0.58	0.58	0.5
超高	0	0	0.96
烟尘	0.85	0.85	0.23
打印错误	0	0	0.88

表A2. EOS M290 - S的性能指标

异常	随机基线	准确性
		Qwen2-VL-2B	GPT-4o-Mini
铺粉器跳跃	0	0	0.93
铺粉器条纹	0	0	0.93
铺粉不完全	0.36	0.36	0.43
边缘膨胀	0.93	0.93	0.43
碎屑	0	0	0.79
超高	0	0	0.5
烟尘	1	1	0
过度熔化	0	0	0.21
崩塌	0	0	1
打印错误	0	0	1

表A3. EOS M290 - D的性能指标

异常	随机基线	准确性
		Qwen2-VL-2B	GPT-4o-Mini
铺粉器跳跃	0	0	0.78
铺粉器条纹	0.11	0.11	1
铺粉不完全	0.22	0.22	0.22
碎屑	0	0	0.44
边缘膨胀	1	1	0.44
超高	0.22	0.22	0.56
粉末飞溅	0.89	0.78	0.56
局部亮点	0.78	0.78	0.56
粉末堆积	0	0	0.67
条纹边界	1	1	0
过度熔化	0	0	0.44
打印错误	0	0	0.56
局部暗区	0.22	0.22	0.56

表A4. EOS M290 - I的性能指标

异常	随机基线	准确性
	Qwen2-VL-2B	GPT-4o-Mini
铺粉器跳跃	0	0	1
铺粉器条纹	0	0	1
铺粉不完全	0	0	0.4
碎屑	0	0	0.8
边缘膨胀	1	1	0------
.2
超高	0	0	0.8
粉末飞溅	0.6	0.6	0.6
局部亮点	0.6	0.4	1
粉末堆积	0	0	1
条纹边界	0.6	0.6	0.4
过度熔化	0	0	0.6
打印错误	0	0	1
:–	:–	:–	:–
------暗区	0	0	0.8

参考文献

Alfaify, A., et al., 面向增材制造的设计：系统综述。可持续性，2020. 12(19): p. 7936.
1. Primo, T., et al., 增材制造与拓扑优化方法的集成用于创新产品设计。国际先进制造技术杂志，2017. 93: p. 467-479.
1. Chen, Y., et al., 增材制造缺陷检测技术。极端制造国际期刊，2021. 3(2): p. 022002.
1. Wu, X., et al., 陶瓷光固化树脂打印缺陷的研究进展与创新。增材制造，2023. 65: p. 103441.
1. Zhao, K., et al., 绑定喷射3D打印缺陷的类型、形成机制、影响及消除方法综述。材料研究与技术杂志，2023. 27: p. 5449-5469.
1. Scime, L., et al., 粉末床增材制造工艺的逐层异常检测与分类：适用于实时像素级语义分割的机器无关算法。增材制造，2020. 36: p. 101453.
1. Chowdhury, S., et al., 激光粉末床熔融：技术、材料、性能与缺陷及数值模拟的现状综述。材料研究与技术杂志，2022. 20: p. 2109-2172.
1. Álvaro, J.A.H. and J.G. Barreda, 制造质量控制的高级检索增强生成系统。高级工程信息学，2025. 64: p. 103007.
1. Khanghah, K.N., et al., 大语言模型在制造过程外推建模中的应用。arXiv预印本arXiv:2502.12185, 2025.
  10.10. Badini, S., et al., 评估ChatGPT在改进增材制造故障排除中的能力。高级工业和工程聚合物研究，2023. 6(3): p. 278-287.
Farimani, A.B. 和 P. Pak, LLM-3D Print: 监控和控制3D打印的大语言模型。2024.
1. Eslaminia, A., et al., FDM-Bench: 评估大语言模型在增材制造任务中的综合基准。arXiv预印本arXiv:2412.09819, 2024.
1. Pak, P. 和 A. Barati Farimani, Additivellm: 预测金属增材制造缺陷的大语言模型。可在SSRN 5144227获取。
1. Fang, Q., et al. 将大语言模型作为增材制造中的少量样本缺陷检测器。在2024年中国自动化大会(CAC)上发表。2024. IEEE.
1. Yang, T., et al., Ad-llm: 基准大语言模型用于异常检测。arXiv预印本arXiv:2412.11142, 2024.
1. Li, Y., et al., Myriad: 应用视觉专家进行工业异常检测的大规模多模态模型。arXiv预印本arXiv:2310.19070, 2023.
1. Gu, Z., et al. Anomalygpt: 使用大规模视觉-语言模型检测工业异常。在AAAI人工智能会议论文集上发表。2024.
1. Jiang, Y., et al., Fabgpt: 一种高效的大型多模态模型，用于复杂的晶圆缺陷知识查询。arXiv预印本arXiv:2407.10810, 2024.
1. Radford, A., et al. 学习可转移的视觉模型以进行自然语言监督。在国际机器学习会议上发表。2021. PmLR.
1. Zhou, Q., et al., Anomalyclip: 零样本异常检测的对象无关提示学习。arXiv预印本arXiv:2310.18961, 2023.
1. Jeong, J., et al. Winclip: 零/少量样本异常分类和分割。在IEEE/CVF计算机视觉和模式识别会议论文集上发表。2023.
1. Wang, C., et al., M3dm-nr: 通过多模态去噪实现RGB-3D抗噪工业异常检测。arXiv预印本arXiv:2406.02263, 2024.
1. Li, S., et al., ClipSAM: CLIP和SAM协作进行零样本异常分割。神经计算，2025. 618: p. 129122.
1. Li, C., et al., KAnoCLIP: 通过知识驱动的提示学习和增强的跨模态集成实现零样本异常检测。arXiv预印本arXiv:2501.03786, 2025.
1. Xu, J., et al., 利用多模态大语言模型实现零样本异常检测和推理。arXiv预印本arXiv:2502.07601, 2025.
1. Jiang, X., et al. MMAD: 工业异常检测中多模态大语言模型的综合基准。在第十三届国际表示学习会议上发表。
1. Deng, H., et al., VMAD: 零样本异常检测的视觉增强多模态大语言模型。arXiv预印本arXiv:2409.20146, 2024.
1. Lewis, P., et al., 用于知识密集型NLP任务的检索增强生成。神经信息处理系统进展，2020. 33: p. 94599474 .
1. Chandrasekhar, A., et al., AMGPT: 上下文查询的大型语言模型在增材制造中的应用。增材制造快报，2024. 11: p. 100232.
1. Liu, X., et al., 利用LLM的命名实体识别提取增材制造工艺知识。机器人与计算机集成制造，2025. 93: p. 102900.
1. Russell-Gilbert, A., et al., RAAD-LLM: 使用LLM和RAG集成的自适应异常检测。arXiv预印本arXiv:2503.02800, 2025.
1. Narimani, A. 和 S. Klarmann, 基于检索增强生成（RAG）的大型语言模型在工业环境中的实时故障排除集成。
1. Yu, S., et al., Visrag: 基于视觉的多模态文档检索增强生成。arXiv预印本arXiv:2410.10594, 2024.
1. Faysse, M., et al. Colpali: 使用视觉语言模型的有效文档检索。在第十三届国际表示学习会议上发表。2024.
1. Masry, A. 和 E. Hoque, ColFlor: 朝向BERT大小的视觉语言文档检索模型。
1. Wang, P., et al., Qwen2-vl: 提升任意分辨率下的视觉语言模型感知世界的能力。arXiv预印本arXiv:2409.12191, 2024.
1. OpenAI. GPT-4o-mini. 可从: https://openai.com/index/gpt-4o-mini-advancing-coste-efficient-intelligence/.
1. OpenAI. embedding-ada-002. 可从: https://openai.com/index/new-and-improved-embedding-model/.
1. Asudani, D.S., N.K. Nagwani, 和 P. Singh, 深度学习环境中词嵌入模型对文本分析的影响：综述。人工智能评论，2023. 56(9): p. 10345-10425.
1. Qwen. Qwen2-VL-2B-Instruct. 可从: https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct.
1. Scime, L., et al., 粉末床增材制造工艺逐层成像数据集用于机器学习应用 (Peregrine v202210.1). 2023, 橡树岭国家实验室(ORNL), 橡树岭, TN (美国). 橡树岭…
1. Sahar, T., et al., 使用机器学习在激光粉末床熔融中进行异常检测：综述。工程结果，2023. 17: p. 100803.
1. Colosimo, B.M. 和 M. Grasso, L-PBF中的原位监控：机遇与挑战。Procedia CIRP, 2020. 94: p. 388-391.
1. Chebil, G., et al., 深度学习对象检测用于L-PBF光学监测飞溅。材料加工技术杂志，2023. 319: p. 118063.
1. Peng, X., et al., 粉末床熔融缺陷检测的多传感器图像融合方法。传感器，2022. 22(20): p. 8023.
1. D’Accardi, E., et al., 激光粉末床熔融（L-PBF）工艺典型缺陷检测与定位能力：使用不同无损技术的实验研究。增材制造进展，2022. 7(6): p. 1239-1256.
1. Snow, Z., et al., 实现机器学习的传感器融合用于激光粉末床熔融原位缺陷检测。2023, 橡树岭国家实验室 (ORNL), 橡树岭, TN (美国); RTX …
1. Cannizzaro, D., et al. 增材制造中原位缺陷检测的图像分析与机器学习。在2021年欧洲设计、自动化与测试会议暨展览 (DATE) 上发表。2021. IEEE.
1. Mahmoud, D., et al., L-PBF增材制造过程中工艺监控与控制的机器学习应用：综述。应用科学，2021. 11(24): p. 11910.
1. Mohammadi, M.G. 和 M. Elbestawi, 使用机器学习方法在L-PBF中进行实时监控。Procedia Manufacturing, 2020. 51: p. 725-731.
1. Okaro, I.A., et al., 使用半监督机器学习自动检测激光粉末床熔融故障。增材制造，2019. 27: p. 42-53.
1. Chicote, B., et al., 使用在线和离线检测流程在L-PBF金属增材制造中检测缺陷。Procedia CIRP, 2022. 111: p. 351-354.
1. Chen, Q., et al., 走向基于知识的推荐对话系统。arXiv预印本arXiv:1908.05391, 2019.
1. Kieu, H.-D., et al., 面向冷启动用户推荐的关键字驱动检索增强大型语言模型。arXiv预印本arXiv:2405.19612, 2024.
1. Doris, A.C., et al., DesignQA: 评估大型语言模型理解工程文档的多模态基准。arXiv预印本arXiv:2404.07917, 2024.
1. Papineni, K., et al. BLEU: 一种自动评估机器翻译的方法。在第40届计算语言学协会年会论文集中发表。2002.
1. Lin, C.-Y. ROUGE: 自动摘要评估包。在文本摘要分支扩展中发表。2004.
1. Colla, D., E. Mensa, 和 D.P. Radicioni, 计算语义相似性的新指标与意义嵌入。基于知识的系统，2020. 206: p. 106346 .
1. Megahed, F.M., et al., 比较分类器性能与基线。自然方法，2024. 21(4).
1. Bhattacharjee, A., et al., 面向黑盒文本分类器的LLM引导因果解释性研究。arXiv预印本arXiv:2309.13340, 2023.
1. Ji, Z., et al. 通过自我反思减轻LLM幻觉。在计算语言学协会发现：EMNLP 2023论文集中发表。2023.
1. Liu, J., J. Lin, 和 Y. Liu, RAG能在多大程度上帮助LLM的推理？arXiv预印本arXiv:2410.02338, 2024.
1. Marvin, G., et al. 大型语言模型中的提示工程。在国际数据智能与认知信息学会议上发表。2023. Springer.
1. Espenes, A.L. 和 A. Trøan, 在PentestGPT中实现提示工程和检索增强生成，使用本地和开源大型语言模型。2024, Agder大学。
  参考论文：https://arxiv.org/pdf/2505.13828

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的