近日,哈佛医学院再次取得病理大模型突破性进展,发布全新开源多模态全切片基础模型TITAN,它通过视觉自监督学习以及与相应病理报告的视觉-语言对齐,在无需任何微调也不要求临床标签的情况下,能够提取通用的切片表示,并生成可推广到资源有限临床场景(如罕见疾病检索和癌症预后)的病理报告,克服现有模型的局限,为病理学研究和临床实践提供更有效的工具。

01 TITAN模型架构

  • 预训练策略

包含三个不同的阶段,以确保最终生成的切片层面表示能够借助视觉和语言监督信号,同时捕捉ROI层面以及WSIs层面的组织形态学语义。为了便于表示,将第一阶段仅视觉预训练的模型称为TITANV,将经过所有三个预训练阶段的完整模型称为TITAN。

第一阶段(仅视觉预训练):

TITAN在名为Mass-340K的内部数据集上进行预训练,该数据集包含335,645张全切片图像(WSIs)及182,862份医学报告,涵盖20种器官、多种染色类型(苏木精-伊红染色占90.9%,免疫组织化学染色占9.1%)以及肿瘤性和非肿瘤性组织(分别占70.0%和30.0%)。

TITANV预训练的Mass-340K数据集组织部位分布情况

第二阶段(感兴趣区域与合成标题对齐):

使用423,122对8K×8K的感兴趣区域及其由PathChat生成的合成标题,对TITANV 进行预训练,使模型能捕捉区域层面形态学信息。

第三阶段(全切片图像与病理报告对齐):

利用182,862对全切片图像及其病理报告进一步预训练,得到最终模型TITAN,使其具备处理切片层面高层次描述的能力。

  • 模型设计

TITAN基于视觉Transformer(ViT架构,切片编码器使用预先提取的图像块特征,按二维特征网格排列以保留空间上下文。通过将图像块尺寸增大,有效减少输入序列长度。在处理全切片图像尺寸和形状不规则问题上,采用区域裁剪和数据增强方法。

  • 语言能力赋予

通过对比标题生成器(CoCa)在第二、三阶段的预训练,将切片表示分别与合成标题及病理报告对齐,微调切片编码器、文本编码器和多模态解码器,使模型具备语言能力,包括生成病理报告、零样本分类和跨模态检索等。

02 TITAN模型评估

  • 区域及切片层面诊断能力

在形态学分类(14 项任务)、分级(3 项任务)、分子分类(38 项任务)以及生存预测(6 项任务)等一系列广泛的任务上对TITAN进行评估观察到TITAN和TITANV的表现优于其他切片编码器。

  • 跨模态能力评估

(a) 零样本评估示意图。通过在切片嵌入空间中识别与查询切片最接近的文本提示嵌入,对查询切片进行分类。

(b) TITAN和PRISM的零样本性能表现。

© 消融研究:对比了不同的预训练策略,评估依据是相对于 TITAN 参考零样本性能的平衡准确率百分比变化情况。

(d) 对癌症基因组图谱(TCGA)-切片-报告数据集进行报告生成评估。

(e) TITAN和PRISM生成报告的癌症基因组图谱(TCGA)示例,同时展示了相应的临床报告。

  • 检索能力评估

(a) 在罕见癌症检索任务上的切片检索结果,“罕见癌症(内部罕见癌症队列)” 包含 43 种罕见癌症类型和 143 种常见癌症类型,总共 186 个类别。“罕见癌症-公共(公共罕见癌症队列)”包含 29 种罕见癌症类型和 98 种常见癌症类型,共计 127 个类别。

(b) 展示了查询切片以及四个具有代表性的检索到的切片。数字表示查询切片与检索到的切片之间的余弦相似度。

© 在五个亚型分类任务上的切片检索结果。

(d) 在癌症基因组图谱(TCGA)包含10108对全切片图像和报告的队列中,针对TITAN和 PRISM 进行报告到切片以及切片到报告的跨模态检索性能评估。

03 TITAN的临床应用潜力与局限

提供现成多模态切片嵌入的TITAN在临床诊断工作流程中有重要潜力,可协助病理学家和肿瘤学家检索相似切片和报告,减少误诊和观察者间差异,其强大泛化能力可处理多种癌症类型的复杂场景,且无需为每个任务专门设计算法,简化了切片层面任务。

虽然Mass-340K数据集切片数量相对较少,但TITAN可在数据量和架构上扩展,通过更多临床数据和合成标题可提升性能,在病理学领域具有重要意义。尽管存在一些局限性,但其在多种任务中的出色表现和潜在的改进方向为病理学研究和临床应用带来了新的希望!

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐