中科大:深度研究agent评测
如何有效评估深度研究代理(Deep Research Agents)的报告生成质量和信息检索能力?论文提出了DeepResearch Bench,一个针对深度研究代理的综合性基准,以系统评估其能力。

📖标题:DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
🌐来源:arXiv, 2506.11763
🌟摘要
🔸深度研究代理是基于LLM的代理的一个突出类别。通过自主编排多步网络探索、目标检索和高阶合成,他们将大量在线信息转换为分析师级、引文丰富的报告——将手动办公桌研究的小时压缩为几分钟。然而,系统评估这些代理能力的综合基准仍然缺乏。
🔸为了弥合这一差距,我们提出了 DeepResearch Bench,这是一个由 100 个博士级研究任务组成的基准,每个任务都由领域专家在 22 个不同的领域精心制作。评估 DRAS 本质上是复杂和劳动密集型的。因此,我们提出了两种新方法,可以实现与人类判断的强对齐。第一种是基于参考的方法,具有自适应标准来评估生成研究报告的质量。引入另一个框架,通过评估 DRA 的有效引用计数和整体引用准确性来评估其信息检索和收集能力。我们在 https://github.com/Ayanami0730/deep_research_bench 上开源 DeepResearch Bench 和这些框架的关键组件,以加速实际基于 LLM 的代理的开发。
🛎️文章简介
🔸研究问题:如何有效评估深度研究代理(Deep Research Agents)的报告生成质量和信息检索能力?
🔸主要贡献:论文提出了DeepResearch Bench,一个针对深度研究代理的综合性基准,以系统评估其能力。
📝重点思路
🔸构建了一个包含100个高质量任务的基准,涵盖22个领域,以真实用户需求为基础。
🔸引入了RACE和FACT两个评估框架,RACE用于报告质量评估,FACT用于信息检索与引用准确性评估。
🔸使用深度学习模型DeepSeek-V3-0324进行任务筛选,生成44019个符合深度研究要求的查询数据集,该数据集用于后续评估。
🔸通过招聘相关领域的专家进行人工评估,以确保评估框架的可靠性和有效性。
🔎分析总结
🔸RACE框架通过动态生成任务特定的权重和标准,提供了更灵活和可靠的报告质量评估,显示出很多RACE变种优于传统的静态评分方法。
🔸FACT框架有效评估了报告内容的事实基础和信息检索的有效性,提供了关于引用正确性和有效性的定量指标。
🔸实验结果表明,RACE框架在评估标准间的人类一致性方面表现优异,超越了传统的人类报告评估方式。
💡个人观点
论文的创新点在于开发了基于实际研究需求的深度研究代理评估基准,提供了系统化的评估方法,并通过人类专家的验证确保了框架的可靠性,与现有评估标准相比,更加贴近实际应用场景,推动了深度学习应用于研究助理领域的发展。
🧩附录


更多推荐



所有评论(0)