1. 项目概述与核心发现

最近在医疗AI圈子里,关于大语言模型(LLM)到底能不能干好“预测”这个老本行,吵得挺热闹。传统观点认为,像GPT这类生成式模型,写写病历总结、回答医患问答还行,但真要让它去做死亡率预测、再入院风险判断这种需要精准输出概率的非生成式任务,肯定比不过专门为这些任务“量身定制”的模型,比如在结构化电子健康记录(EHR)数据上训练的XGBoost、GRU,或者在临床文本上微调过的ClinicalBERT、GatorTron。理由也很直接:术业有专攻,通用模型在特定任务上缺乏针对性训练,性能理应不如专用模型。

但事情真的这么简单吗?我和团队最近深度研读并复现了ClinicRealm这项重磅研究,它系统性地把15个GPT风格的LLM、5个BERT风格模型和11种传统机器学习/深度学习方法,拉到了同一个擂台上,用真实的临床数据(MIMIC-III/IV和同济医院数据集)进行了一场全方位的“比武”。结果出乎很多人的意料,也直接挑战了上述固有认知。简单来说,核心发现可以概括为三点:

  1. 在非结构化临床笔记预测任务上,游戏规则变了。 过去,大家默认的“黄金标准”是在海量医学文本上预训练、再针对特定预测任务微调的BERT类模型(如GatorTron)。但ClinicRealm的结果显示,像DeepSeek-R1、GPT-5、DeepSeek-V3.1-Think这些顶尖的LLM,在 零样本 (即不提供任何任务示例,直接给指令)设置下,其预测性能已经 显著超越 了经过充分微调的BERT模型。这意味着,为了一个预测任务而去费力微调一个专用文本编码器,其必要性正在被削弱。
  2. 在结构化EHR预测任务上,LLM是“数据稀缺”场景下的利器。 当有充足数据时,专门为时序EHR设计的模型(如AdaCare、AICare)依然表现最强。然而,在只有极少样本(如10个样本)的“少样本”场景下,先进的LLM(如GPT-5、DeepSeek-V3.1-Think)展现出了惊人的零样本能力,其性能甚至可以超越大多数传统模型。这对于研究新发疾病、罕见病或数据获取困难的临床场景具有重大价值。
  3. 开源模型的崛起与“医学专用”模型的尴尬。 研究发现,顶尖的开源LLM(如DeepSeek系列)在多项任务上的表现已经与闭源的商业模型(如GPT系列)不相上下,甚至有所超越。这为医疗机构在本地安全部署高性能AI模型提供了可能。同时,一些经过医学领域专门微调的LLM(如BioGPT、Meditron),在非生成式预测任务上,并未显示出相对于通用LLM的明显优势,其价值定位需要重新审视。

这项研究的意义在于,它用扎实的数据和严谨的实验告诉我们:现代LLM已经不再是只能“生成文本”的玩具,它们在理解复杂临床叙事、从异构数据中推理风险方面,具备了成为临床预测 竞争性工具 的潜力。这迫使临床信息学家、AI开发者和研究者必须更新自己的“模型选型手册”。

2. 研究设计与方法深度解析

ClinicRealm的研究设计体现了其追求全面、公平和临床相关性的初衷。要理解其结论的可靠性,我们必须深入其方法论的细节。

2.1 数据源与任务构建:贴近临床现实的考验

研究选用了三个公开数据集:MIMIC-III、MIMIC-IV和同济医院(TJH)COVID-19数据集。这种选择兼顾了数据的多样性(美国ICU数据 vs. 中国COVID-19数据)和任务的代表性。

任务设计的关键在于区分“前瞻性预测”和“回顾性分类” ,这是很多研究容易混淆的地方。ClinicRealm对此做了清晰界定:

  • 院内死亡率预测 :这被拆分成三个子任务,极具巧思。
    1. 回顾性(结构化EHR) :使用患者 整个住院期间 的EHR数据,在出院时判断其是否死亡。这更像一个“事后验证”任务,信息最全。
    2. 回顾性(出院小结) :使用 出院小结文本 ,在出院时判断。这是基于完整文本记录的分类。
    3. 前瞻性(入院笔记) :仅使用患者入院 最初24小时内 的临床笔记,来预测其后续住院期间的死亡风险。这是 真正的、高难度的临床预测 ,模拟医生在入院早期进行风险评估的场景。
  • 30天再入院预测 :这是一个纯粹的前瞻性任务。在患者出院时,利用截至出院时的EHR数据或出院小结,预测其未来30天内是否会再次入院。
  • 住院时长预测 :这是一个回归任务,使用TJH数据集,根据患者每次就诊时的累积EHR数据,动态预测其剩余的住院天数。

这种任务划分的价值在于,它告诉我们LLM在不同信息完备度下的表现。例如,在“入院笔记预测死亡率”这个硬核任务上表现出色,才能真正证明其具有临床前瞻性风险评估的潜力。

2.2 模型阵容:一场跨越时代的对决

研究构建了一个庞大的模型竞技场,基本涵盖了当前临床预测的主流技术路线:

  • 传统ML/DL模型(11个) :包括经典机器学习方法(XGBoost, Random Forest)和深度学习基础模型(RNN, LSTM, GRU),以及最新的 EHR专用预测模型 (AdaCare, ConCare, AICare)。这些是当前的“守擂者”。
  • BERT风格模型(5个) :从通用BERT到医学领域预训练的ClinicalBERT、BioBERT、GatorTron(超大规-模临床文本训练)。这些是 非结构化文本预测的“前冠军”
  • GPT风格LLM(15个) :涵盖了从开源到闭源,从通用到医学微调,从基础到增强推理的各类模型。如GPT-4o、GPT-5、Gemma 3、Qwen 2.5、DeepSeek全系列(包括DeepSeek-R1和具有“思考”能力的DeepSeek-V3.1-Think),以及医学微调的BioGPT、Meditron等。这些是来“挑战”的“新王”。

2.3 评估策略:公平性与洞察力

评估方式的设计直接决定了结论的可靠性。

  1. 对齐比较基准 :为了公平对比LLM的“零样本”能力,研究让传统模型和BERT模型在“少样本”(10个样本)设置下训练。这模拟了数据稀缺场景,也是LLM零样本能力发挥优势的战场。同时,也提供了传统模型在“全量数据”下训练的性能作为上限参考。
  2. 针对性的提示工程 :LLM处理结构化EHR数据是个挑战。研究没有简单地把CSV表格扔给模型,而是设计了 特征列表式 的提示模板,并为每个临床特征附上了 单位 参考值范围 。例如,不是输入“心率:120”,而是输入“心率:120次/分钟(参考范围:60-100)”。这极大地帮助LLM理解了数字的临床意义。他们还探索了 上下文学习 ,在提示中提供几个例子,进一步激发模型能力。
  3. 超越AUC的评估 :除了标准的AUROC、AUPRC等指标,研究进行了两项深度评估:
    • 人工专家评估 :邀请5位临床专家,对LLM生成的预测 推理过程 进行评分。评估维度包括临床准确性/安全性、推理逻辑与完整性、清晰度与临床效用。这回答了“LLM的预测是否可信、可解释”这个关键问题。
    • 错误类型分析 :建立了一个详细的错误分类体系(如事实不一致/幻觉、遗漏关键信息、逻辑缺陷等),系统分析LLM推理中的典型错误模式。这对于改进模型和提示设计至关重要。
  4. 失败处理 :对于LLM未遵循指令输出预测的情况,研究没有简单地丢弃样本,而是 赋予一个默认的非信息值 (如分类任务给0.5概率)。这确保了所有模型都在完全相同的测试集上评估,并将输出不可靠的“惩罚”体现在了性能指标中,更为严谨。

注意: 这项研究在提示工程上投入的精力,是很多试图简单调用API复现结果的研究者容易忽略的。直接将原始EHR表格粘贴进ChatGPT,得到的结果很可能没有可比性。结构化数据的“自然语言化”表述,是解锁LLM临床预测能力的关键一步。

3. 核心结果解读与实操启示

基于上述严谨的设计,我们来看具体结果,并提炼出对实践有指导意义的结论。

3.1 临床笔记预测:LLM的“主场优势”与范式转移

结果速览

  • 前瞻性死亡率预测(MIMIC-III入院笔记) DeepSeek-R1 以90.75%的AUROC位居榜首,显著超过了微调后的最佳BERT模型GatorTron(87.97%)。GPT-5(89.75%)和DeepSeek-V3.1-Think(88.42%)也表现优异。这证明,仅凭入院早期的文本记录,顶尖LLM就能做出比专用文本编码器更准确的死亡风险预测。
  • 回顾性分类(MIMIC-IV出院小结) :LLM的优势更加明显。在死亡率分类上, DeepSeek-V3.1 达到了接近完美的97.89% AUROC。在30天再入院预测上, o3-mini-high GPT-5 领先。 在所有任务中,零样本LLM均大幅超越了微调后的最佳BERT模型。

实操启示与决策建议

  1. 重新评估文本编码器选型 :如果你现在的项目正在使用或考虑使用微调的BERT类模型(如ClinicalBERT、BioBERT)从临床文本中提取特征进行预测,那么是时候将 顶级开源LLM(如DeepSeek-V3.1)的零样本能力 纳入对比测试了。对于许多任务,后者可能提供更优的性能,且省去了繁琐的微调过程。
  2. “零样本”作为强基线 :在启动一个新的临床文本预测项目时,应将像GPT-5或DeepSeek-V3.1这样的LLM的零样本性能,作为一个必须对比的 强基线 。它的表现很可能直接决定你的项目是否需要、以及值得投入多少资源去收集数据并训练专用模型。
  3. 开源模型的可行性 :DeepSeek系列模型的卓越表现,为医院或研究机构在内部私有化部署高性能预测工具扫清了一个主要障碍——不再必须依赖可能涉及数据出境风险的闭源API。

3.2 结构化EHR预测:传统模型的堡垒与LLM的奇袭

结果速览

  • 数据充足时,专用模型依然称王 :在MIMIC-IV和TJH数据集上,当使用全部数据训练时,专门为时序EHR设计的深度学习模型(如 AdaCare, AICare )在大多数任务上取得了最佳性能。这是它们的设计优势所在。
  • 数据稀缺时,LLM展现惊人效率 :在仅提供10个训练样本的“少样本”设置下,传统模型性能大幅下降。而此时,采用优化提示(含上下文学习)的 GPT-4o 在MIMIC-IV死亡率预测上取得了85.99%的AUROC, 超过了所有10样本训练的传统模型 (其中最好的AdaCare为80.02%)。这表明,在数据有限时,LLM凭借其强大的先验知识,能实现更高效的学习。
  • 提示策略的影响复杂 :优化提示(提供单位、参考范围)和添加上下文学习(ICL)并不总是提升性能,其效果因模型和任务而异。例如,对GPT-4o提升显著,但对GPT-5在某些任务上可能适得其反。然而,优化提示能 显著降低模型的“预测失败率” ,提高输出可靠性,这一点至关重要。

实操启示与决策建议

  1. 场景化模型选择
    • 拥有丰富、高质量历史EHR数据 :优先考虑训练专用的EHR预测模型(如AdaCare、AICare),它们能最大程度挖掘数据中的时序依赖和交互关系,性能天花板最高。
    • 数据稀缺或任务新颖 (如新发传染病、罕见病预后): 高级LLM的零样本/少样本能力应成为首选探索方向 。你可以快速构建一个提示模板,在极少量数据上测试其性能,可能迅速获得一个可用的基线模型。
    • 需要快速原型验证 :在项目初期,利用LLM零样本能力快速验证想法的可行性,成本低、速度快。
  2. 提示工程是必修课 :要让LLM理解EHR数据,简单的表格粘贴是行不通的。必须将数据 翻译成模型能理解的“临床语言” 。这包括:
    • 结构化叙述 :以清晰列表形式呈现特征-值对。
    • 提供临床上下文 :为每个数值特征附加单位和正常参考范围。
    • 谨慎使用上下文学习(ICL) :提供1-3个精心构造的示例可能极大提升性能,但需要测试,因为也可能引入偏差或降低大模型的性能。

3.3 多模态整合:1+1未必大于2

研究尝试将结构化EHR和非结构化临床笔记结合,探索多模态预测。

结果发现

  • 对于微调模型,采用 自注意力或交叉注意力机制 融合两种模态的特征,能获得比单一模态稍好的性能,但提升幅度有限,且未能超越最好的单模态(临床笔记)LLM。
  • 对于LLM,简单地将EHR数据和临床文本拼接在一个提示词中, 并未带来一致的性能提升 ,有时甚至会导致性能下降。

实操启示 : 这个结果非常反直觉,但也极具启发性。它可能意味着:

  1. 信息冗余 :高质量的出院小结已经概括并包含了EHR中的关键信息,因此额外添加结构化的EHR数据带来的信息增益有限。
  2. LLM的整合能力瓶颈 :当前LLM可能还不擅长在单次前向传递中,有效地从两种截然不同的数据格式(结构化列表 vs. 自然语言段落)中协同推理、去冗余并提取互补信息。
  3. 融合策略是关键 :简单的拼接(Prompt-based)不够。未来需要更精巧的多模态对齐与融合架构,例如让LLM分别处理两种数据,再进行推理层面的交互,这可能比早期特征融合更有效。

心得 :不要盲目追求多模态。在临床预测中,首先应评估单一最佳模态(尤其是临床文本)的性能上限。只有当确信两种模态提供的是 独特且互补 的信息时,才值得投入精力设计复杂的多模态融合方案。目前来看,对于许多任务,深耕文本模态的LLM可能已经提供了足够优秀的解决方案。

4. 超越准确率:可靠性、公平性与错误模式

一个模型仅有高AUC是不够的,尤其是用于临床辅助决策时。ClinicRealm研究的深度体现在其对模型“软实力”的评估上。

4.1 人工评估:LLM的推理质量如何?

临床专家从三个维度对LLM的推理链进行评分(1-5分):

  • 临床准确性与安全性 :LLM的推理是否基于给定事实,有无虚构或危险陈述?平均得分在3.5-4.2之间,表明 整体较好,但仍有改进空间 。幻觉问题确实存在,但并非主流。
  • 推理与完整性 :LLM是否抓住了关键风险因素并进行了逻辑连接?平均得分在3.7-4.3之间。专家发现,LLM通常能识别重要特征,但逻辑链条的深度和临床洞察的层次感有时不如资深医生。
  • 清晰度与临床效用 :解释是否清晰有用?平均得分在3.8-4.4之间,是评分最高的维度。这说明 LLM生成的解释对临床医生有实际参考价值 ,能帮助理解模型的判断依据。

启示 :LLM在提供“可解释性”方面具有天然优势。通过设计合理的提示(如“请逐步推理”),我们可以获得一个伴随预测的、人类可读的“诊断思路”。这比传统模型的黑箱输出或简单的特征重要性排序,在临床实践中可能更容易被接受和信任。

4.2 错误模式分析:LLM常在哪“踩坑”?

研究归纳了LLM在临床推理中常见的五类错误,这对于提示工程和模型改进至关重要:

  1. 事实不一致/幻觉 :最严重的问题。模型可能“脑补”出病历中未记录的并发症或检查结果。
  2. 遗漏关键信息 :忽略了病历中明确记载的、对预测至关重要的高风险指标。
  3. 逻辑或推理缺陷 :虽然引用的数据正确,但得出的临床结论不合理或误解了其重要性(例如,将稳定的慢性病与急性风险过度关联)。
  4. 包含无关信息 :在推理中堆砌了大量与当前预后无关的细节,干扰了核心判断。
  5. 信心程度不当 :对基于模糊数据得出的结论表现出过度自信,或对明确的风险因素表现得过于犹豫。

应对策略

  • 提示设计 :在指令中明确强调“仅基于提供的信息进行推理”、“避免猜测未提及的内容”、“重点关注与[具体任务,如死亡风险]最相关的因素”。
  • 后处理与校验 :对于高风险应用,可以引入规则校验或二次确认机制,对模型输出中提及的关键事实与原始数据进行核对。
  • 领域微调 :虽然研究显示医学微调LLM在预测性能上优势不大,但针对“减少幻觉、提升推理严谨性”的微调,可能对提高可靠性有专门价值。

4.3 公平性考量

研究还对模型在不同人口统计学亚组(如年龄、性别、种族)上的表现差异进行了分析(详见附录)。这是负责任AI的必备环节。初步结果表明,不同模型在不同子群体间存在性能差异,但没有一种模型在所有群体上始终公平。这提醒我们,在部署任何临床预测模型前, 必须进行独立的公平性审计 ,确保其不会加剧现有的医疗不平等。

5. 给从业者的实战指南与未来展望

基于ClinicRealm的全面发现,我们可以绘制一份当前阶段在临床预测任务中应用LLM的实战指南。

5.1 模型选型决策树

面对一个具体的临床预测需求,你可以遵循以下路径进行技术选型:

开始
│
├── 你的数据模态是什么?
│   │
│   ├── 主要是非结构化临床文本(如病程记录、出院小结)
│   │   │
│   │   └── **首选:顶级LLM的零样本能力测试**
│   │       ├── 推荐模型:DeepSeek-V3.1, GPT-5, DeepSeek-R1
│   │       ├── 操作:设计清晰指令,直接输入文本进行预测。
│   │       └── **对比基线:微调的BERT/GatorTron模型**。如果LLM零样本已超越或接近,则优先采用LLM方案。
│   │
│   └── 主要是结构化时序EHR数据
│       │
│       ├── 你的数据量是否充足?(通常指数千至上万样本)
│       │   │
│       │   ├── 是 → **首选:专用EHR预测模型(如AdaCare, AICare)进行全量训练**。这是性能上限最高的方案。
│       │   │       └── **同时测试**:LLM零样本/少样本性能作为有趣对照。
│       │   │
│       │   └── 否(数据稀缺)→ **首选:高级LLM的零样本/少样本提示**
│       │           ├── 推荐模型:GPT-5, DeepSeek-V3.1-Think, GPT-4o (使用优化提示+ICL)
│       │           └── **核心步骤**:必须进行精细的提示工程(特征列表化、添加单位/参考范围)。
│
└── 你是否需要模型提供推理过程以增强可信度?
    │
    ├── 是 → **优先考虑具有“思考链”能力的LLM**(如DeepSeek-V3.1-Think, GPT-5),并在提示中明确要求逐步推理。
    │       └── 注意:需对生成的推理进行人工审核或自动化事实核查,防范幻觉。
    │
    └── 否,只需最终预测概率 → 所有上述模型均可考虑,传统模型输出更简洁。

5.2 提示工程模板示例(以结构化EHR死亡率预测为例)

以下是一个经过优化的提示模板,你可以在此基础上调整:

你是一位经验丰富的临床医生助理。请根据以下患者的住院电子健康记录(EHR)数据,评估其在本次住院期间的死亡风险。请逐步思考,最后给出一个介于0到1之间的死亡风险概率,其中0表示极不可能死亡,1表示极有可能死亡。

患者信息:
- 年龄:[数值] 岁
- 性别:[男/女]

入院后每日监测数据(记录格式:指标名称: 数值 [单位] (正常参考范围)):

第1天:
- 心率: 105 [次/分钟] (60-100)
- 收缩压: 88 [mmHg] (90-140)
- 血氧饱和度: 91% (95-100%)
- 体温: 38.5 [°C] (36.5-37.5)
- 呼吸频率: 24 [次/分钟] (12-20)
- 白细胞计数: 15.2 [10^9/L] (4.0-10.0)
- 肌酐: 1.8 [mg/dL] (0.6-1.2)
...(列出所有相关特征)

第2天:
...(同上)

[可选:添加上下文学习示例]
示例1:
[数据示例1]
关键风险因素:患者存在高龄、低血压、低氧血症和白细胞显著升高,提示可能存在严重感染和器官灌注不足。
推理:这些指标的组合表明患者处于感染性休克的高危状态,死亡风险高。
预测概率:0.85
示例2:
[数据示例2]
关键风险因素:患者生命体征基本在正常范围内,仅单项指标轻微异常。
推理:无明显高危因素,死亡风险低。
预测概率:0.05

现在,请分析当前患者的数据:
[插入当前患者的实际EHR数据]

请按以下步骤输出:
1. 首先,列出你认为最关键的三到五个异常临床指标及其临床意义。
2. 然后,基于这些指标,进行逐步的临床推理。
3. 最后,输出你的最终死亡风险概率,格式为:{"risk_score": [你的概率值]}

5.3 未来研究方向与挑战

ClinicRealm研究打开了一扇门,也指明了未来的路:

  1. 提示工程的自动化与优化 :如何为不同的临床预测任务和数据类型,自动生成或搜索最优提示模板,是一个亟待解决的问题。
  2. 解决时序数据理解瓶颈 :LLM对长序列、稀疏的时序EHR数据的理解仍是短板。需要探索更好的架构(如状态空间模型SSM与LLM结合)或编码方式,让LLM能像理解故事一样理解病情演变。
  3. 可靠性与安全性的强化 :如何通过微调、强化学习从人类反馈(RLHF)或约束解码等技术,系统性减少LLM在临床推理中的幻觉和逻辑错误,是走向临床部署的关键。
  4. 真正高效的多模态融合 :开发新的架构,使LLM能更深度、更智能地融合文本、时序数据、影像甚至基因组学信息,实现真正的全息患者建模。
  5. 个性化与动态预测 :将LLM与患者个体历史数据结合,实现随时间推移不断更新的动态风险预测,而不仅仅是单次静态评估。

这项研究清晰地表明,大语言模型在临床预测领域的角色,正从一个“有趣的辅助工具”迅速转变为“不可忽视的竞争性解决方案”。它带来的不仅是性能基准的刷新,更是一种思维模式的转变:我们或许不再总是需要为每一个预测任务从头训练一个模型,而是可以学会如何更好地与一个通用的、强大的医学知识推理引擎进行“对话”和“协作”。对于医疗AI的从业者而言,现在正是重新审视工具箱、拥抱这场范式变革的最佳时机。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐