中科大：深度研究agent评测

如何有效评估深度研究代理（Deep Research Agents）的报告生成质量和信息检索能力？论文提出了DeepResearch Bench，一个针对深度研究代理的综合性基准，以系统评估其能力。

大模型任我行

1366人浏览 · 2025-06-21 10:00:00

大模型任我行 · 2025-06-21 10:00:00 发布

在这里插入图片描述

📖标题：DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
🌐来源：arXiv, 2506.11763

🌟摘要

🔸深度研究代理是基于LLM的代理的一个突出类别。通过自主编排多步网络探索、目标检索和高阶合成，他们将大量在线信息转换为分析师级、引文丰富的报告——将手动办公桌研究的小时压缩为几分钟。然而，系统评估这些代理能力的综合基准仍然缺乏。
🔸为了弥合这一差距，我们提出了 DeepResearch Bench，这是一个由 100 个博士级研究任务组成的基准，每个任务都由领域专家在 22 个不同的领域精心制作。评估 DRAS 本质上是复杂和劳动密集型的。因此，我们提出了两种新方法，可以实现与人类判断的强对齐。第一种是基于参考的方法，具有自适应标准来评估生成研究报告的质量。引入另一个框架，通过评估 DRA 的有效引用计数和整体引用准确性来评估其信息检索和收集能力。我们在 https://github.com/Ayanami0730/deep_research_bench 上开源 DeepResearch Bench 和这些框架的关键组件，以加速实际基于 LLM 的代理的开发。

🛎️文章简介

🔸研究问题：如何有效评估深度研究代理（Deep Research Agents）的报告生成质量和信息检索能力？
🔸主要贡献：论文提出了DeepResearch Bench，一个针对深度研究代理的综合性基准，以系统评估其能力。

📝重点思路

🔸构建了一个包含100个高质量任务的基准，涵盖22个领域，以真实用户需求为基础。
🔸引入了RACE和FACT两个评估框架，RACE用于报告质量评估，FACT用于信息检索与引用准确性评估。
🔸使用深度学习模型DeepSeek-V3-0324进行任务筛选，生成44019个符合深度研究要求的查询数据集，该数据集用于后续评估。
🔸通过招聘相关领域的专家进行人工评估，以确保评估框架的可靠性和有效性。

🔎分析总结

🔸RACE框架通过动态生成任务特定的权重和标准，提供了更灵活和可靠的报告质量评估，显示出很多RACE变种优于传统的静态评分方法。
🔸FACT框架有效评估了报告内容的事实基础和信息检索的有效性，提供了关于引用正确性和有效性的定量指标。
🔸实验结果表明，RACE框架在评估标准间的人类一致性方面表现优异，超越了传统的人类报告评估方式。