1. 项目概述与核心问题

最近几年,无论是实验室里的闲聊,还是顶级期刊上的论文,一个词的出现频率越来越高:人工智能(AI),或者说更具体一点,机器学习(ML)。从AlphaFold在蛋白质结构预测上的一鸣惊人,到GPT系列模型在文本生成上的“涌现”能力,AI已经从一个计算机领域的专业工具,演变为一种可能重塑所有学科研究范式的“通用技术”。作为一名长期关注技术如何赋能科研的从业者,我观察到这股浪潮背后,存在一个非常有趣且亟待解答的“黑箱”问题:当科学家们在项目申请书中写下“我们将采用深度学习模型”或“利用机器学习算法分析数据”时,这究竟意味着什么?是仅仅在方法部分增加了一个时髦的词汇,还是真的在重新构想整个研究的设计、资源配置乃至团队的知识结构?

这个问题之所以重要,是因为它直接关系到科研创新的效率与方向。如果AI的应用仅仅是工具层面的简单替换(比如用随机森林替代了传统的逻辑回归),那么其影响可能是线性的、局部的。但如果AI的引入促使研究团队去探索以前无法触及的问题(例如,通过生成模型设计全新的分子结构),或者彻底改变了知识生产的工作流程(例如,自动化文献综述和假设生成),那么其影响就是非线性的、革命性的。然而,目前大多数讨论仍停留在宏观趋势或个案描述上,缺乏系统性的、基于大规模真实项目数据的实证分析。

因此,我们启动了一项研究,旨在打开这个“黑箱”。我们的核心目标是: 通过对海量科研项目申请书进行文本挖掘,系统性地识别、分类AI/ML技术的应用,并量化分析其与项目预算、团队构成、任务范围及最终科研成果之间的关联。 这不仅仅是一个自然语言处理(NLP)的技术实践,更是一次试图用数据理解“AI如何做科研”的探索。本文将详细拆解我们如何从零开始构建分析框架,包括算法关键词的探测与分类、预算条目的语义解析、科研任务的自动化提取,以及最终的实证模型构建。其中遇到的挑战、做出的权衡和收获的洞见,或许能为同行提供一份详实的“踩坑”指南。

2. 研究设计与数据基础

2.1 数据来源与预处理

我们的核心数据来源于一所大型科研资助机构在2010年至2023年间收到的所有研究项目申请书及其对应的资助结果信息。数据集包含超过两万份完整的项目提案文本、详细的预算清单以及项目结题后的出版物记录。这是一个极其宝贵但同时也非常“脏”的数据集。项目文本格式不一,从严谨的LaTeX排版到Word直接粘贴的文本都有;预算描述更是“重灾区”,既有高度标准化的科目(如“博士研究生薪资”),也有极其模糊的条目(如“其他运营费用”)。

数据处理的第一步是标准化。我们使用了一系列文本清洗管道,包括统一编码(UTF-8)、去除页眉页脚等非主体内容、将PDF/Word文本转换为纯文本,并进行分句处理。这里的一个关键技巧是 保留文本的原始段落和章节信息 。因为后续的算法识别和任务提取严重依赖上下文,一个被错误切分的句子可能导致完全错误的分类。例如,“我们计划使用基于Transformer的模型(如BERT)进行文本分析”这句话,如果被切分成“我们计划使用基于Transformer的模型”和“(如BERT)进行文本分析”,那么“BERT”这个关键算法词就可能被后续的简单正则匹配漏掉。

2.2 核心分析框架:从输入、过程到输出

为了系统分析AI的影响,我们构建了一个“输入-过程-输出”的分析框架:

  • 输入 :主要指科研资源,通过预算数据量化,包括人力成本(人员工资)、运营成本(设备、耗材、计算资源)和管理费用。
  • 过程 :指科研活动本身,通过从项目文本中提取的“研究任务”来表征。这回答了“研究人员具体要做什么”的问题。
  • 输出 :指科研成果,通过出版物数量、引用次数、期刊影响因子等文献计量学指标来衡量。

而AI的采纳情况,则是通过分析项目文本中出现的算法和技术关键词来识别的。我们的核心假设是:AI不仅仅是一种工具,它的引入会系统性改变上述三个环节。接下来的部分,将深入阐述我们如何实现这三个环节的量化。

3. 算法关键词的探测、分类与可靠性验证

识别项目是否使用了AI,以及使用了哪种AI,是整个研究的基石。我们摒弃了简单的关键词匹配,设计了一个三层级的、人机协同的精细化分类流程。

3.1 构建种子词典与初步扫描

首先,我们整合了四篇权威的AI科学计量学文献中的关键词列表,去重后形成了一个包含超过150个术语的“种子词典”。这个词典涵盖了从“人工智能”、“机器学习”这样的广义术语,到“卷积神经网络”、“随机森林”、“生成对抗网络”这样的具体算法。我们使用正则表达式对每个项目文本进行初步扫描,标记所有出现种子词典中词汇的句子。

实操心得:词典构建的“广度”与“精度”权衡 初始词典的构建必须足够“广”,以避免漏报。我们甚至纳入了“数据分析”、“大数据”这类边界模糊的词汇,因为在实际项目文本中,它们常常是AI应用的“委婉说法”。但同时,这带来了高误报率。因此,初步扫描只是一个“粗筛”,核心的判别工作交给了后续更智能的步骤。

3.2 基于大语言模型(LLM)的关键词提取与分类

对于初步扫描未匹配到的句子,我们并不轻易放过。因为这些句子可能包含新兴的、未收录在种子词典中的算法名称(如某个最新发布的专用模型),或者以非常规方式描述算法。这里,我们引入了大语言模型(LLM)作为“智能侦察兵”。

我们设计了一个两阶段提示工程流程:

  1. 第一阶段:关键词提取 。我们使用一个特定的提示词(Prompt),要求LLM从给定的句子中,提取所有明确提及的AI/ML/数据分析工具和算法的名称。Prompt中严格限定了输出格式为JSON,并要求提供原始文本片段、标准化名称、所属大类(AI/ML/Analytics)以及置信度。这一步极大地扩展了我们的探测范围,抓取到了许多像“iCAMP”、“DeepCLIP”这样的领域专用算法。
  2. 第二阶段:研究阶段与算法类别分类 。对于每一个提取出的“关键词-句子”对,我们再进行两次分类:
    • 研究阶段分类 :判断该算法在 这个具体句子描述的场景中 扮演什么角色。我们定义了11种用途,如“构思”(Ideation)、“数据收集”、“数据分析”、“实验”、“模型验证”、“算法开发”等。这步至关重要,它区分了“在项目中提及AlphaFold”和“在项目中使用AlphaFold做实验”的本质不同。
    • 算法类别分类 :判断该算法本身属于哪种技术类型。我们最终归纳为四大类: 现代AI (深度学习、生成模型)、 统计机器学习 (传统ML模型)、 领域特定方法 (如图像处理管线)、 分析技术 (广义数据分析)。这个分类有助于我们理解不同技术能力的渗透情况。

3.3 可靠性验证:为什么以及如何做

使用LLM进行分类,其结果的可靠性是审稿人和我们自己最关心的问题。我们不能将其视为“黑箱”并盲目相信输出。因此,我们设计了一个严谨的可靠性验证方案。

我们没有采用昂贵且耗时的人工标注全部数据作为金标准,而是采用了 模型间一致性评估 的策略。我们选择了两个在架构、规模和训练数据上差异巨大的开源LLM:Meta的Llama-3.1-70B-Instruct和阿里的Qwen2.5-32B-Instruct。在完全相同的提示词和输入条件下,让两个模型对同一批数据进行独立分类。

结果与洞见

  • 总体一致性 :两个模型在36%的记录上达成了完全一致的多标签匹配(Jaccard相似性为0.41)。这个数字初看不高,但考虑到分类任务的复杂性(11个非互斥类别),且是两种完全不同模型之间的比较,它表明数据中存在相当一部分“清晰信号”。
  • 类别差异 :一致性在不同类别上差异巨大。像“教学”(Educating)这类表述明确的用途,模型间一致性很高(Cohen‘s κ=0.74)。而“构思”(Ideation)和“实验”(Experimentation)的一致性则接近随机水平(κ=0.06, 0.12)。这本身就是一个重要发现: 在项目文本中,描述“用AI产生想法”或“用AI做实验”的语言是非常模糊和多变的,不同模型(甚至不同人)的理解可能大相径庭。
  • 策略调整 :基于此,我们决定对“构思”和“实验”这两个低一致性类别的所有记录进行 人工复核 。对于无法明确归类的记录,我们选择保守策略,将其从后续分析中排除,以确保核心结论的稳健性。

注意事项:LLM作为分类器的“性格” 我们发现,不同的LLM有各自的“性格”。Qwen模型更为“激进”,倾向于给更多记录打上标签(覆盖率94%),而Llama模型则更为“保守”(覆盖率48%)。这种差异主要源于模型对模糊表述的容忍度不同。在实际应用中,了解你所使用工具的“性格”,并通过交叉验证来校准,是避免系统性偏差的关键。

4. 预算条目的语义解析与资源重配分析

钱往哪里花,是研究重点最直接的体现。资助机构的预算条目通常有标准代码,但“其他”这类笼统的代码毫无信息量。真正的价值隐藏在研究人员填写的自由文本描述里,例如:“购买用于训练神经网络的高性能GPU计算节点”或“支付数据标注外包费用”。

4.1 基于语义嵌入的预算分类

我们的目标是将成千上万条自由文本预算描述,自动归类到一个有意义的分类体系中。我们采用了以下流程:

  1. 定义分类体系 :与机构的财务和项目官员反复沟通,我们制定了一个既符合财务惯例又能反映科研活动特点的三层分类体系。顶层分为 人力资本成本 运营成本 间接成本 。中层细分为13个子类,如核心人员薪资、设备与基础设施、数据软件与计算、学术交流与出版等。
  2. 语义模型匹配 :我们使用了 paraphrase-multilingual-mpnet-base-v2 这个句子嵌入模型。该模型能将任何语言的文本句子转换为一个高维向量,语义相似的句子其向量在空间中的距离(用余弦相似度衡量)也更近。
    • 操作上,我们首先为每个预算子类编写了3-5条代表性的描述语句作为“锚点”,并获取其向量。
    • 然后,将每一条预算自由文本描述也转换为向量。
    • 最后,计算该文本向量与所有“锚点”向量之间的余弦相似度,将其归入相似度最高的那个子类。
  3. 人工校验与迭代 :随机抽样检查分类结果,对于模型置信度低或分类明显错误的条目进行人工纠正,并将这些纠正后的样本加入“锚点”集,重新训练模型(即few-shot learning思路),逐步提升分类准确率。

4.2 从预算数据中洞察AI的影响

通过对所有预算条目进行归类汇总,我们可以在项目层面计算出各项成本的绝对值和占比。结合之前识别的“AI采纳”变量,我们就可以进行量化分析:

  • 假设检验 :采用AI的项目,其预算结构是否与非AI项目有显著差异?
  • 我们的发现 :初步回归分析表明, 采用现代AI(深度学习、生成模型)的项目,其总预算申请额倾向于更低 。这是一个反直觉但非常有趣的发现。一种可能的解释是,AI方法(尤其是开源模型和云计算)降低了对某些传统昂贵实验设备或大规模样本采集的依赖。同时,这些项目在“数据、软件与计算”子项上的支出占比显著更高,资源明显流向了数字基础设施。

5. 从项目文本中提取科研任务

理解AI如何改变科研过程,需要知道研究人员具体要做什么。我们创新性地引入了一个来自劳动力经济学领域的工具—— 职业信息网络任务分类法

5.1 O*NET任务分类法与JAAT工具

O NET是一个庞大的数据库,它描述了美国经济中数百种职业所需的技能、知识和工作活动。其中,“任务”是最细粒度的单元,例如“分析数据以识别趋势或关系”或“撰写软件程序”。Job Advertisement Analysis Toolkit (JAAT) 是一个基于Transformer的模型,它经过超过1.55亿条招聘广告的训练,能够将一段非结构化的文本(如职位描述)映射到O NET的标准化任务陈述上。

我们的核心思路是: 一份研究项目申请书,本质上是一份描述“未来研究工作”的“职位描述” 。因此,我们可以利用JAAT,从项目文本中提取出该项目计划执行的所有具体任务。

5.2 实施流程与阈值选择

  1. 文本分块 :将每个项目文本按500词左右的大小进行分块。这是因为JAAT模型有输入长度限制,且分块处理能更好地捕捉局部上下文。
  2. 任务提取 :对每个文本块运行JAAT模型,设定一个置信度阈值(例如80%)。模型会输出该文本块可能涉及的所有O*NET任务及其置信度。
  3. 去重与汇总 :在项目层面,将所有文本块提取出的任务去重,得到该项目独有的“任务集合”。一个关键指标是 任务数量 ,它粗略衡量了项目的复杂度或范围。

阈值选择的权衡 :我们测试了80%、85%、90%三个置信度阈值。将阈值从80%提升到90%,虽然提取出的任务平均置信度更高,但会导致约15%的项目无法提取出任何任务(覆盖率下降)。更重要的是,我们比较了不同阈值下,AI项目与非AI项目在“任务数量”上的差异模式,发现结果是 稳健的 ——排名顺序和统计显著性基本不变。因此,我们最终选择了80%的阈值,以在保证质量的前提下最大化数据覆盖率。

5.3 任务分析揭示的“扩展”而非“替代”

这是本研究最核心的发现之一。通过比较AI项目和非AI项目的任务清单,我们原本假设会看到一种“任务替代”模式:即AI项目减少了某些传统人工任务(如手动数据清洗),增加了新的AI相关任务(如调参)。

但数据呈现了不同的故事: AI项目平均执行的任务数量显著多于非AI项目 。并且,查看那些在AI项目中更频繁出现的任务(见原文SI图9),它们主要是“分析数据以识别趋势或关系”、“开发数学模型或计算模拟”、“使用计算机软件处理数据”等。而在非AI项目中更常见的任务(见原文SI图10),如“准备科学报告”或“与团队成员沟通”,在AI项目中出现的频率并没有降低。

这强烈暗示, AI的引入主要不是替代了现有任务,而是为研究团队赋能,使其能够在项目中承担更多、更复杂的分析性和建模性任务,从而扩展了研究的范围和深度。 这好比给木匠一把电锯,他并没有停止使用锤子和凿子,而是现在能更快地锯开木头,从而有精力去尝试更复杂的榫卯结构。

6. 实证分析模型、结果与稳健性检验

6.1 模型设定

为了量化AI采纳与各项结果变量(预算、任务、科研成果)的关联,并控制其他混杂因素(如学科领域、申请年份、申请者资历等),我们主要采用了多元线性回归模型。基本形式如下: 结果变量 = β0 + β1 * AI采纳指标 + 控制变量 + 固定效应 + ε

其中,AI采纳指标可以是:

  • 二值变量:项目是否使用了任何AI/ML技术。
  • 分类变量:项目使用了哪一类算法(现代AI、统计ML等)。
  • 连续变量:项目提及的独特AI关键词数量。

6.2 主要发现

  1. 科研产出 :在控制了项目规模、学科、PI资历等因素后,采用AI(尤其是现代AI)的项目,其后续产出的 论文数量 论文平均引用量 有微弱的正向关联,但在统计上并不总是显著。这表明,至少在短期可观测的产出上,AI的“生产力提升”效应可能被其较高的学习成本和不确定性所抵消,或者其价值体现在其他难以量化的方面(如开辟新方向)。
  2. 团队与协作 :AI项目倾向于拥有 更大的预算团队规模 ,这意味着需要更多样化的角色,如数据科学家、算法工程师与领域专家合作。
  3. 任务范围 :如前所述,AI项目涉及 更广泛的任务 ,支持了“能力扩展”假说。
  4. 资源分配 :现代AI项目 总预算额更低 ,但 计算资源占比更高 ,显示出资源向数字基础设施的转移。

6.3 稳健性检验:我们如何确信这不是巧合?

为了确保上述发现不是由数据偏差或模型设定错误导致的,我们进行了多重稳健性检验:

  1. 匹配样本分析 :这是最严格的检验之一。我们担心AI项目和非AI项目本身就在研究主题、学科上有系统性差异。为此,我们使用文本语义相似度(基于项目摘要的嵌入向量),为每一个“AI项目”找到了一个最相似的“非AI项目”进行配对。在这个“孪生”样本中再次进行回归,核心结论依然成立。这大大增强了我们因果推断的信心。
  2. 不同算法类别分离效应 :在回归中同时放入代表不同算法类别(现代AI、统计ML等)的变量,以分离各自的独立效应。结果发现,许多效应确实是由“现代AI”驱动的。
  3. LLM暴露度分析 :我们还将每个项目提取出的任务列表,与一项最新研究发布的“职业对LLM暴露度”分数进行匹配。计算每个项目的“总体LLM暴露度”。发现AI项目,特别是涉及现代AI的项目,其任务组合对LLM自动化更为敏感。这为未来AI(尤其是大语言模型)可能进一步自动化科研工作流提供了前瞻性证据。

7. 总结、启示与未来方向

回顾整个项目,这不仅仅是一次成功的数据分析,更是一次方法论上的深度探索。我们验证了使用自然语言处理技术大规模量化科研活动“黑箱”的可行性。通过算法分类、预算解析和任务提取这三把“手术刀”,我们得以更精细地解剖AI赋能科研的微观机制。

给同行研究者的建议

  • 重视文本数据 :项目申请书、结题报告、实验室笔记等文本是未被充分挖掘的宝藏,蕴含着关于科研过程的海量信息。
  • 人机协同,而非替代 :LLM是强大的工具,但在复杂分类任务上不能完全信赖。将其用于“粗筛”和“扩展”,结合人工复核关键环节,是可靠且高效的策略。
  • 语义相似度是关键 :无论是匹配预算条目还是寻找相似项目,基于Transformer的语义嵌入模型(如Sentence-BERT)比传统关键词匹配强大得多。
  • 从“是否”到“如何” :未来研究应超越“是否使用AI”的二元问题,深入探讨“如何使用AI”(用于构思、实验还是分析)以及“使用何种AI”(生成模型、预测模型还是优化算法)所带来的异质性影响。

对科研管理者与资助机构的启示

  • 调整资源配置 :AI密集型研究对计算资源和数据基础设施的需求更高,资助方案可能需要相应调整。
  • 优化团队评价 :AI项目往往需要更大、更多元的团队,评价机制应鼓励并认可这种跨学科协作。
  • 关注过程创新 :资助机构可以鼓励研究人员在申请书中更清晰地阐述AI将如何改变具体的研究任务和工作流程,而不仅仅是将其列为一种方法。

最后,这项研究本身也存在局限。任务提取基于O*NET分类法,它并非为科研活动量身定制,可能遗漏一些高度专业化的科研任务。未来,构建一个“科研任务本体”将是极具价值的方向。此外,我们的分析集中于项目提案的“计划”,而计划与实际执行之间可能存在差距。如果能结合实验室的日志数据或科研人员的时间追踪数据,将能描绘出更真实的AI科研图景。

AI在科研中的应用浪潮方兴未艾。作为研究者,我们既是这场变革的观察者,也是参与者。通过这样量化的、实证的透镜,我们希望能更清醒地认识这股力量,引导它更有效、更负责任地推动科学的前沿。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐