我在假期为了完成写综述的任务,深度体验和对比了多款学术论文Agent。其中有几款给我留下的印象很深,效果也是相当不错。下面我用“AI治理”为主题让这几款Agent进行PK!

Pasa-agent

在这里插入图片描述

首先登场的是:PaSa-agent.Pasa是字节跳动研究团队推出的基于强化学习的学术论文检索智能体,这是关于它的详细介绍:

功能特点

  • 自主调用搜索工具:能自动调用搜索引擎,根据用户输入的学术问题生成多样化的搜索关键词,并执行多次搜索,确保全面覆盖相关文献。
  • 阅读和分析论文内容:通过Crawler和Selector两个核心组件,高效地收集和筛选相关论文,从海量文献中筛选出与用户查询最相关的参考文献,确保检索结果的精确性。
  • 支持复杂学术查询:专为处理复杂的学术问题设计,能够理解并处理细粒度的学术查询,例如涉及特定算法或研究方法的问题。

技术原理

  • 核心组件:包括Crawler和Selector两个主要的LLM智能体。Crawler负责通过搜索引擎收集与用户查询相关的学术论文。Selector则负责精读每一篇论文,评估其是否符合用户需求。
  • 强化学习优化:使用强化学习(RL)和近端策略优化(PPO)算法进行训练,通过合成数据集AutoScholarQuery和真实世界查询基准RealScholarQuery来提升搜索效率和准确性。
    在这里插入图片描述

性能表现

  • 在Recall@20和Recall@50指标上,PaSa比Google Scholar分别提升了37.78%和39.90%。
  • 查全率比Google+GPT-4组合高出33.8%,性能超越搜索增强版ChatGPT。
  • 与基于Prompt Engineering实现的PaSa - GPT-4o相比,经过强化学习训练的PaSa-7b在召回率上提升了30.36%,准确率上提升了4.25%。

应用优势

  • 节省时间:能够在两分钟内完成一次详尽的学术调研,显著提升了文献检索的速度,让研究者把更多精力放在分析和撰写上。
  • 精准全面:模仿人类研究者的行为,深入理解研究需求,不仅能找到直接相关的论文,还能通过引用关系挖掘更多重要参考文献,提供全面且准确的搜索结果。

开源与使用

  • PaSa已经开源,相关代码可在GitHub获取。
  • 可在PaSa官网上进行试用。

检索效果

当我以The current development status of AI governance为检索主题时得到了如下相关的论文集合。点开还可以直接查看论文的摘要、作者、发布时间等关键信息。进一步点开则可以直接预览pdf啦!

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

我们点开其中几篇论文查看与我们想要的东西是否契合,还阔以哈。

The organizational use of artificial intelligence (AI) has rapidly spread across various sectors. Alongside the awareness of the benefits brought by AI, there is a growing consensus on the necessity of tackling the risks and potential harms, such as bias and discrimination, brought about by advanced AI technologies. A multitude of AI ethics principles have been proposed to tackle these risks, but the outlines of organizational processes and practices for ensuring socially responsible AI development are in a nascent state. To address the paucity of comprehensive governance models, we present an AI governance framework, the hourglass model of organizational AI governance, which targets organizations that develop and use AI systems. The framework is designed to help organizations deploying AI systems translate ethical AI principles into practice and align their AI systems and processes with the forthcoming European AI Act. The hourglass framework includes governance requirements at the environmental, organizational, and AI system levels. At the AI system level, we connect governance requirements to AI system life cycles to ensure governance throughout the system’s life span. The governance model highlights the systemic nature of AI governance and opens new research avenues into its practical implementation, the mechanisms that connect different AI governance layers, and the dynamics between the AI governance actors. The model also offers a starting point for organizational decision-makers to consider the governance components needed to ensure social acceptability, mitigate risks, and realize the potential of AI.
人工智能(AI)在各个领域的组织应用迅速扩散。随着对 AI 带来的益处的认识,人们越来越认同应对由先进 AI 技术带来的风险和潜在危害(如偏见和歧视)的必要性。已经提出了众多 AI 伦理原则来应对这些风险,但确保负责任 AI 发展的组织流程和实践的轮廓仍处于萌芽状态。为了解决治理模式的不足,我们提出一个 AI 治理框架,即组织 AI 治理的沙漏模型,针对开发和使用 AI 系统的组织。该框架旨在帮助部署 AI 系统的组织将伦理 AI 原则转化为实践,并将他们的 AI 系统和流程与即将出台的欧洲 AI 法案相一致。沙漏框架包括环境、组织和 AI 系统层面的治理要求。在 AI 系统层面,我们将治理要求与 AI 系统生命周期相联系,以确保在整个系统生命周期内进行治理。 治理模型突出了人工智能治理的系统性质,并为其实际实施、连接不同人工智能治理层级的机制以及人工智能治理参与者之间的动态开辟了新的研究方向。该模型还为组织决策者提供了一个起点,以考虑确保社会可接受性、减轻风险和实现人工智能潜力的治理组件。

Agent Laboratory

在这里插入图片描述

其次是:Agent Laboratory. Agent Laboratory是由AMD和约翰·霍普金斯大学联合推出的自主科研框架。以下是关于它的详细介绍:

主要功能

  • 文献综述:能自动收集和整理与研究主题相关的文献,通过PhD学生代理使用arXiv API检索相关论文摘要,执行获取摘要、提取全文、添加论文等操作,经不断查询、评估文章相关性,形成文献回顾。
  • 实验设计与执行:基于文献综述和研究目标,由PhD和Postdoc代理合作制定详细的实验计划。ML工程师代理负责编写数据准备代码,通过Hugging Face Datasets搜索和加载外部数据集,与PhD学生交互完善数据预处理脚本。由mle - solver模块自动完成实验的运行,生成、测试和优化机器学习代码。
  • 结果解释:在结果解读阶段,PhD和Postdoc代理讨论实验结果的意义,并形成对这些结果的一致理解,Postdoc将见解提交给系统,为报告撰写奠定基础。
  • 报告撰写:PhD和教授代理协作,在paper - solver工具支持下创建全面的学术研究报告,遵循标准学术论文结构生成各个章节,还可访问arXiv数据库查找参考资料,生成的LaTeX文件可编译成PDF格式。
  • 用户交互:支持自主模式和共同驾驶模式,用户可在每个阶段提供反馈和指导,如在报告精炼阶段,PhD可决定是否需要对报告进行修订,或指导代理进行必要的改进。

技术原理

  • 基于大型语言模型:使用预训练的LLM,如gpt - 4o、o1 - mini和o1 - preview等生成自然语言文本,涵盖文献综述、实验计划、代码和研究报告等内容。
  • 自主代理系统:通过多个专门的代理协作完成任务,包括PhD代理、Postdoc代理、ML Engineer代理和Professor代理等,每个代理有各自的职责,共同完成文献检索、实验设计、代码编写、结果解释和报告撰写等任务。
  • 模块化工具:mle - solver模块自动生成和优化机器学习代码,paper - solver模块生成和优化研究报告,确保实验和报告的质量。
  • 迭代改进机制:代理在每个阶段进行自我反思,根据实验结果或错误信号生成改进措施,基于迭代优化提高代码和报告的质量。
    在这里插入图片描述

性能表现

根据招募十名博士研究生作为志愿者的评估实验:

  • 实验质量:o1 - mini通常展现出最高的实验质量分数,平均得分为3.2/5,而gpt - 4o和o1 - preview的平均得分分别为2.6/5和2.9/5。
  • 报告质量:o1 - preview获得了最高的报告质量评分,平均为3.4/5,其次是o1 - mini的3.2/5和gpt - 4o的3.0/5。
  • 有用性:o1 - preview再次领先,获得最高的实用性评分,平均为4.4/5,紧随其后的是o1 - mini的4.0/5和gpt - 4o的4.0/5。

应用优势

  • 智能自动化:从文献搜索到代码优化和报告撰写,自动处理繁琐任务,助力研究者专注于创新和关键思考。
  • 高效资源利用:可根据设备配置灵活调整,能在普通笔记本电脑或高性能的GPU集群上运行,满足从入门到专业级别的科研需求。
  • 成果质量提升:mle - solver工具在多个机器学习基准测试中表现出色,甚至超过了部分人类研究者的中位表现。

开源与使用

  1. 克隆 GitHub 仓库:首先使用以下命令克隆仓库:

    git clone git@github.com:SamuelSchmidgall/AgentLaboratory.git
    
  2. 设置并激活 Python 环境

    python -m venv venv_agent_lab
    
    • 现在激活此环境:
    source venv_agent_lab/bin/activate
    #windows用下面这个!!!
    venv_agent_lab\Scripts\activate.bat
    
    • 因为我在使用虚拟环境的时候一直有报错,故直接用conda的python3.9环境进行安装,其间有一个报错:
ERROR: Ignored the following versions that require a different python version: 0.23.0 Requires-Python >=3.10; 0.23.0rc0 Requires-Python >=3.10; 0.23.0rc2 Requires-Python >=3.10; 0.23.1 Requires-Python >=3.10; 0.23.2 Requires-Python >=3.10; 0.23.2rc1 Requires-Python >=3.10; 0.25.0 Requires-Python >=3.10; 0.25.0rc0 Requires-Python >=3.10; 0.25.0rc1 Requires-Python >=3.10; 0.25.0rc2 Requires-Python >=3.10; 1.14.0 Requires-Python >=3.10; 1.14.0rc1 Requires-Python >=3.10; 1.14.0rc2 Requires-Python >=3.10; 1.14.1 Requires-Python >=3.10; 1.15.0 Requires-Python >=3.10; 1.15.0rc1 Requires-Python >=3.10; 1.15.0rc2 Requires-Python >=3.10; 1.15.1 Requires-Python >=3.10; 1.3.1 Requires-Python >=3.10; 1.4.8 Requires-Python >=3.10; 2.1.0 Requires-Python >=3.10; 2.1.0rc1 Requires-Python >=3.10; 2.1.1 Requires-Python >=3.10; 2.1.2 Requires-Python >=3.10; 2.1.3 Requires-Python >=3.10; 2.2.0 Requires-Python >=3.10; 2.2.0rc1 Requires-Python >=3.10; 2.2.1 Requires-Python >=3.10; 2.2.2 Requires-Python >=3.10; 3.10.0 Requires-Python >=3.10; 3.10.0rc1 Requires-Python >=3.10
ERROR: Could not find a version that satisfies the requirement tensorflow-io-gcs-filesystem==0.37.1 (from versions: 0.18.0, 0.19.0, 0.19.1, 0.20.0, 0.21.0, 0.22.0, 0.23.0, 0.23.1, 0.24.0, 0.25.0, 0.26.0, 0.27.0, 0.28.0, 0.29.0, 0.30.0, 0.31.0)
ERROR: No matching distribution found for tensorflow-io-gcs-filesystem==0.37.1

遇到这个情况把requirements.txt的这个库的版本号去掉即可
在这里插入图片描述

  1. 安装所需库

    pip install -r requirements.txt
    

    需要安装相当长的时间。。。。OMG

  2. 安装 pdflatex [可选]

    sudo apt install pdflatex
    
    • 这使得代理能够编译 latex 源代码。
    • [重要] 如果由于没有 sudo 权限而无法运行此步骤,可以通过将 --compile_latex 标志设置为 false 来关闭 pdf 编译:--compile_latex=False
  3. 现在运行 Agent Laboratory
    ⭐注:如果没有o1的apikey可以使用deepseek-chat哦~可以像我一样把原先默认的o1-mini模型改为国产的deepseek-chat哦,v3比o1好使.doge
    在这里插入图片描述

    python ai_lab_repo.py --api-key "API_KEY_HERE" --llm-backend "deepseek-chat" --research-topic "YOUR RESEARCH IDEA"

    如果想要用中文进行搜索问答,输入这条命令:
    python ai_lab_repo.py --api-key "API_KEY_HERE" --research-topic "YOUR RESEARCH IDEA (in your language)" --llm-backend "deepseek-chat" --language "中文"

    或者,如果您没有安装 pdflatex
    python ai_lab_repo.py --api-key "API_KEY_HERE" --llm-backend "deepseek-chat" --research-topic "YOUR RESEARCH IDEA" --compile_latex=False

处理报错(必看!!!)

  • 注意如果用deepseek还会有一个问题就是会报这样一个错误,这是因为编码器没有考虑进deepseek的缘故:
-Inference Exception: 'Could not automatically map cl100k_base to a tokeniser. Please use `tiktoken.get_encoding` to explicitly get the tokeniser you expect.'

将inference.py中的第163行代码修改如下:

   if model_str in ["o1-preview", "o1-mini", "claude-3.5-sonnet", "o1", "deepseek-chat"]:
        encoding = tiktoken.get_encoding("cl100k_base")
    else:
        try:
            encoding = tiktoken.encoding_for_model(model_str)
        except KeyError:
            encoding = tiktoken.get_encoding("cl100k_base")

检索结果

这里我是先用中文进行检索了一波:告诉我最近ai治理的最近进展,结果如下(截取部分)
在这里插入图片描述
在这里插入图片描述
可见中文效果还是一般般,那么英文的话就交给大家去实现吧!
如果你用英文搜出来感觉效果还可以的话欢迎在评论区发出来噢!

PK结果(个人见解,效果因人而异~)

显而易见的是pasa用起来非常简单,AgentLaboratory的安装库已经足以劝退大多数人了。特别是这几天刚好是美赛,有需要搜索论文的同学可以用它们来试试!

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐