II-Medical-8B-1706

I. 模型概述

II-Medical-8B-1706 是由智能互联网开发的新型医疗推理大语言模型,旨在增强 AI 驱动的医疗推理能力。该模型在先前的 II-Medical-8B 基础上进行了显著改进,提升了医疗问答的能力,并提供了 II-Medical-8B-1706 的静态量化版本。

II. 训练方法

研究者收集并生成了全面的医疗领域推理数据集,并在 Qwen/Qwen3-8B 模型上进行了 SFT 微调。随后,他们通过在硬推理数据集上训练 DAPO 进一步优化 SFT 模型以提升性能。

在 SFT 阶段,使用了以下超参数:

  • 最大长度:16378

  • 批量大小:128

  • 学习率:5e-5

  • 迭代次数:6

在强化学习(RL)阶段,设计了两阶段训练过程:

  1. 第一阶段专注于提升模型对复杂医学问题的推理能力

  2. 第二阶段确保模型响应优先考虑安全性和帮助性

RL 阶段的配置如下:

  • 最大提示长度:2048 tokens

  • 最大响应长度:12288 tokens

  • 启用了超长缓冲区,4096 tokens,惩罚因子 1.0

  • 剪裁比例:低 0.2,高 0.28

  • 批量大小:训练提示 512,生成提示 1536,小批量 32

  • 每个提示的响应数:16

  • 温度:1.0,Top-p:1.0,Top-k:-1(vLLM 展开)

  • 学习率:1e-6,热身步骤:10,权重衰减:0.1

  • 损失聚合:令牌平均

  • 梯度裁剪:1.0

  • 熵系数:0

III. 评估结果

II-Medical-8B-1706 模型在 HealthBench 基准测试中取得了 46.8% 的分数,该基准测试全面评估大型语言模型在医疗保健领域的性能和安全性,其表现与谷歌的 MedGemma-27B 相当。此外,该模型还在其他九个医学问答基准测试中进行了评估,包括 MedMCQA、MedQA、PubMedQA、HealthBench、MMLU-Pro 中的医学相关问题、《柳叶刀》和《新英格兰医学杂志》的小问答集,以及 MedBullets 平台的 4 选项和 5 选项分割和 MedXpertQA。

评估结果显示,II-Medical-8B-1706 在多个基准测试中表现优异,例如在 MedMC 中得分为 74.44,在 MedQA 中为 88.61,在 PubMed 中为 79.8,在 MMLU-P 中为 81.04,在 Lancet 中为 71.60,在 MedB-4 中为 80.84,在 MedB-5 中为 74.67,平均得分为 70.5。

IV. 数据集构建

训练数据集包含 2.3M 样本,来源如下:

  1. 公共医学推理数据集

    • 通用医学推理

    • 医学-R1-蒸馏数据

    • 医学-R1-蒸馏数据-中文

    • UCSC-VLAA/m23k-标记化

  2. 使用 Qwen3-235B-A22B 生成的合成医学问答数据

    • 来自已建立的医学数据集:MedMcQA、MedQA、MedReason
  3. 精选医学 R1 跟踪记录(338,055 个样本)

    • 收集所有公共 R1 跟踪记录,来源包括 PrimeIntellect/SYNTHETIC-1、GeneralReasoning/GeneralThought-430Ka-m-team/AM-DeepSeek-R1-Distilled-1.4M、open-thoughts/OpenThoughts2-1M、nvidia/Llama-Nemotron-后期训练数据集(仅科学子集)等

    • 通过特定领域的处理流程:

      1. 使用 sentence-transformers/allMiniLM-L6-v2 生成提示嵌入

      2. 执行 K 均值聚类,分为 50,000 个聚类

      3. 领域分类:为每个聚类选择 10 个最接近聚类中心的提示,使用 Qwen2.5-32b-Instruct 对每个选定提示进行领域分类,并根据分类提示的多数投票分配聚类的领域

      4. 领域过滤:仅保留标记为医学或生物学的聚类作为最终数据集

  4. 其他数据集

    • Text-Book-QA 子集中的 269k 提示

    • Text-Patient-QA 子集中的 162k 提示

    • Chat-Doctor-QA 子集中的 112k 提示

    • 来自 a-m-team/AM-Qwen3-蒸馏的指令遵循提示

数据预处理

  1. 完整生成过滤:仅保留具有完整生成输出的跟踪记录

  2. 基于长度的过滤

    • 最低阈值:仅保留超过 3 个单词的提示

    • 等待令牌过滤:移除具有超过 47 次“等待”出现的跟踪记录(97 万分位数阈值)

  3. 响应去重复

    • Ngram:4

    • Jacard 阈值:0.7

数据去污染

使用两步去污染方法:

  1. 遵循 open-r1 项目:使用 10-grams 和评估数据集对数据集进行去污染

  2. 之后,使用 s1k 方法的模糊去污染,阈值为 90%

V. 使用方法

II-Medical-8B-1706 模型的使用方式与 Qwen 或 Deepseek-R1-蒸馏模型相同。例如,可以轻松使用 vLLM 启动服务:

vllm serve Intelligent-Internet/II-Medical-8B-1706

也可以使用 SGLang 启动服务:

python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B-1706

VI. 使用指南

推荐的采样参数为:温度 = 0.6,Top-p = 0.9。使用时,应明确要求逐步推理,并在最终答案中使用 \boxed{} 格式(例如,“请逐步推理,并将最终答案放在 \boxed{} 中。”)。

VII. 局限性和注意事项

数据集可能包含源材料中的固有偏见,医学知识需要定期更新,请注意,该模型不适用于医学用途。

核心技术汇总

在这里插入图片描述

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐