升级版医疗推理大语言模型(微调自Qwen3-8B):II-Medical-8B-1706
II-Medical-8B-1706是由智能互联网研发的医疗推理大语言模型,基于Qwen3-8B进行优化,专注于提升医学问答能力。该模型采用两阶段训练方法:首先进行监督微调(SFT),随后通过强化学习(RL)优化医学推理和安全响应能力。在HealthBench等10个医疗基准测试中表现优异,多项指标超过70分,与MedGemma-27B性能相当。训练数据包含230万样本,涵盖公共数据集和合成数据,
II-Medical-8B-1706
I. 模型概述
II-Medical-8B-1706 是由智能互联网开发的新型医疗推理大语言模型,旨在增强 AI 驱动的医疗推理能力。该模型在先前的 II-Medical-8B 基础上进行了显著改进,提升了医疗问答的能力,并提供了 II-Medical-8B-1706 的静态量化版本。
II. 训练方法
研究者收集并生成了全面的医疗领域推理数据集,并在 Qwen/Qwen3-8B 模型上进行了 SFT 微调。随后,他们通过在硬推理数据集上训练 DAPO 进一步优化 SFT 模型以提升性能。
在 SFT 阶段,使用了以下超参数:
-
最大长度:16378
-
批量大小:128
-
学习率:5e-5
-
迭代次数:6
在强化学习(RL)阶段,设计了两阶段训练过程:
-
第一阶段专注于提升模型对复杂医学问题的推理能力
-
第二阶段确保模型响应优先考虑安全性和帮助性
RL 阶段的配置如下:
-
最大提示长度:2048 tokens
-
最大响应长度:12288 tokens
-
启用了超长缓冲区,4096 tokens,惩罚因子 1.0
-
剪裁比例:低 0.2,高 0.28
-
批量大小:训练提示 512,生成提示 1536,小批量 32
-
每个提示的响应数:16
-
温度:1.0,Top-p:1.0,Top-k:-1(vLLM 展开)
-
学习率:1e-6,热身步骤:10,权重衰减:0.1
-
损失聚合:令牌平均
-
梯度裁剪:1.0
-
熵系数:0
III. 评估结果
II-Medical-8B-1706 模型在 HealthBench 基准测试中取得了 46.8% 的分数,该基准测试全面评估大型语言模型在医疗保健领域的性能和安全性,其表现与谷歌的 MedGemma-27B 相当。此外,该模型还在其他九个医学问答基准测试中进行了评估,包括 MedMCQA、MedQA、PubMedQA、HealthBench、MMLU-Pro 中的医学相关问题、《柳叶刀》和《新英格兰医学杂志》的小问答集,以及 MedBullets 平台的 4 选项和 5 选项分割和 MedXpertQA。
评估结果显示,II-Medical-8B-1706 在多个基准测试中表现优异,例如在 MedMC 中得分为 74.44,在 MedQA 中为 88.61,在 PubMed 中为 79.8,在 MMLU-P 中为 81.04,在 Lancet 中为 71.60,在 MedB-4 中为 80.84,在 MedB-5 中为 74.67,平均得分为 70.5。
IV. 数据集构建
训练数据集包含 2.3M 样本,来源如下:
-
公共医学推理数据集:
-
通用医学推理
-
医学-R1-蒸馏数据
-
医学-R1-蒸馏数据-中文
-
UCSC-VLAA/m23k-标记化
-
-
使用 Qwen3-235B-A22B 生成的合成医学问答数据:
- 来自已建立的医学数据集:MedMcQA、MedQA、MedReason
-
精选医学 R1 跟踪记录(338,055 个样本):
-
收集所有公共 R1 跟踪记录,来源包括 PrimeIntellect/SYNTHETIC-1、GeneralReasoning/GeneralThought-430Ka-m-team/AM-DeepSeek-R1-Distilled-1.4M、open-thoughts/OpenThoughts2-1M、nvidia/Llama-Nemotron-后期训练数据集(仅科学子集)等
-
通过特定领域的处理流程:
-
使用 sentence-transformers/allMiniLM-L6-v2 生成提示嵌入
-
执行 K 均值聚类,分为 50,000 个聚类
-
领域分类:为每个聚类选择 10 个最接近聚类中心的提示,使用 Qwen2.5-32b-Instruct 对每个选定提示进行领域分类,并根据分类提示的多数投票分配聚类的领域
-
领域过滤:仅保留标记为医学或生物学的聚类作为最终数据集
-
-
-
其他数据集:
-
Text-Book-QA 子集中的 269k 提示
-
Text-Patient-QA 子集中的 162k 提示
-
Chat-Doctor-QA 子集中的 112k 提示
-
来自 a-m-team/AM-Qwen3-蒸馏的指令遵循提示
-
数据预处理
-
完整生成过滤:仅保留具有完整生成输出的跟踪记录
-
基于长度的过滤:
-
最低阈值:仅保留超过 3 个单词的提示
-
等待令牌过滤:移除具有超过 47 次“等待”出现的跟踪记录(97 万分位数阈值)
-
-
响应去重复:
-
Ngram:4
-
Jacard 阈值:0.7
-
数据去污染
使用两步去污染方法:
-
遵循 open-r1 项目:使用 10-grams 和评估数据集对数据集进行去污染
-
之后,使用 s1k 方法的模糊去污染,阈值为 90%
V. 使用方法
II-Medical-8B-1706 模型的使用方式与 Qwen 或 Deepseek-R1-蒸馏模型相同。例如,可以轻松使用 vLLM 启动服务:
vllm serve Intelligent-Internet/II-Medical-8B-1706
也可以使用 SGLang 启动服务:
python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B-1706
VI. 使用指南
推荐的采样参数为:温度 = 0.6,Top-p = 0.9。使用时,应明确要求逐步推理,并在最终答案中使用 \boxed{} 格式(例如,“请逐步推理,并将最终答案放在 \boxed{} 中。”)。
VII. 局限性和注意事项
数据集可能包含源材料中的固有偏见,医学知识需要定期更新,请注意,该模型不适用于医学用途。
核心技术汇总

更多推荐



所有评论(0)