升级版医疗推理大语言模型（微调自Qwen3-8B）：II-Medical-8B-1706

II-Medical-8B-1706是由智能互联网研发的医疗推理大语言模型，基于Qwen3-8B进行优化，专注于提升医学问答能力。该模型采用两阶段训练方法：首先进行监督微调(SFT)，随后通过强化学习(RL)优化医学推理和安全响应能力。在HealthBench等10个医疗基准测试中表现优异，多项指标超过70分，与MedGemma-27B性能相当。训练数据包含230万样本，涵盖公共数据集和合成数据，

Panesle

1126人浏览 · 2025-06-22 10:30:00

Panesle · 2025-06-22 10:30:00 发布

II-Medical-8B-1706

I. 模型概述

II-Medical-8B-1706 是由智能互联网开发的新型医疗推理大语言模型，旨在增强 AI 驱动的医疗推理能力。该模型在先前的 II-Medical-8B 基础上进行了显著改进，提升了医疗问答的能力，并提供了 II-Medical-8B-1706 的静态量化版本。

II. 训练方法

研究者收集并生成了全面的医疗领域推理数据集，并在 Qwen/Qwen3-8B 模型上进行了 SFT 微调。随后，他们通过在硬推理数据集上训练 DAPO 进一步优化 SFT 模型以提升性能。

在 SFT 阶段，使用了以下超参数：

最大长度：16378
批量大小：128
学习率：5e-5
迭代次数：6

在强化学习（RL）阶段，设计了两阶段训练过程：

第一阶段专注于提升模型对复杂医学问题的推理能力
第二阶段确保模型响应优先考虑安全性和帮助性

RL 阶段的配置如下：

最大提示长度：2048 tokens
最大响应长度：12288 tokens
启用了超长缓冲区，4096 tokens，惩罚因子 1.0
剪裁比例：低 0.2，高 0.28
批量大小：训练提示 512，生成提示 1536，小批量 32
每个提示的响应数：16
温度：1.0，Top-p：1.0，Top-k：-1（vLLM 展开）
学习率：1e-6，热身步骤：10，权重衰减：0.1
损失聚合：令牌平均
梯度裁剪：1.0
熵系数：0

III. 评估结果

II-Medical-8B-1706 模型在 HealthBench 基准测试中取得了 46.8% 的分数，该基准测试全面评估大型语言模型在医疗保健领域的性能和安全性，其表现与谷歌的 MedGemma-27B 相当。此外，该模型还在其他九个医学问答基准测试中进行了评估，包括 MedMCQA、MedQA、PubMedQA、HealthBench、MMLU-Pro 中的医学相关问题、《柳叶刀》和《新英格兰医学杂志》的小问答集，以及 MedBullets 平台的 4 选项和 5 选项分割和 MedXpertQA。

评估结果显示，II-Medical-8B-1706 在多个基准测试中表现优异，例如在 MedMC 中得分为 74.44，在 MedQA 中为 88.61，在 PubMed 中为 79.8，在 MMLU-P 中为 81.04，在 Lancet 中为 71.60，在 MedB-4 中为 80.84，在 MedB-5 中为 74.67，平均得分为 70.5。

IV. 数据集构建

训练数据集包含 2.3M 样本，来源如下：

公共医学推理数据集：
- 通用医学推理
- 医学-R1-蒸馏数据
- 医学-R1-蒸馏数据-中文
- UCSC-VLAA/m23k-标记化
使用 Qwen3-235B-A22B 生成的合成医学问答数据：
- 来自已建立的医学数据集：MedMcQA、MedQA、MedReason
精选医学 R1 跟踪记录（338,055 个样本）：
- 收集所有公共 R1 跟踪记录，来源包括 PrimeIntellect/SYNTHETIC-1、GeneralReasoning/GeneralThought-430Ka-m-team/AM-DeepSeek-R1-Distilled-1.4M、open-thoughts/OpenThoughts2-1M、nvidia/Llama-Nemotron-后期训练数据集（仅科学子集）等
- 通过特定领域的处理流程：
  1. 使用 sentence-transformers/allMiniLM-L6-v2 生成提示嵌入
  2. 执行 K 均值聚类，分为 50,000 个聚类
  3. 领域分类：为每个聚类选择 10 个最接近聚类中心的提示，使用 Qwen2.5-32b-Instruct 对每个选定提示进行领域分类，并根据分类提示的多数投票分配聚类的领域
  4. 领域过滤：仅保留标记为医学或生物学的聚类作为最终数据集
其他数据集：
- Text-Book-QA 子集中的 269k 提示
- Text-Patient-QA 子集中的 162k 提示
- Chat-Doctor-QA 子集中的 112k 提示
- 来自 a-m-team/AM-Qwen3-蒸馏的指令遵循提示

数据预处理

完整生成过滤：仅保留具有完整生成输出的跟踪记录
基于长度的过滤：
- 最低阈值：仅保留超过 3 个单词的提示
- 等待令牌过滤：移除具有超过 47 次“等待”出现的跟踪记录（97 万分位数阈值）
响应去重复：
- Ngram：4
- Jacard 阈值：0.7

数据去污染

使用两步去污染方法：

遵循 open-r1 项目：使用 10-grams 和评估数据集对数据集进行去污染
之后，使用 s1k 方法的模糊去污染，阈值为 90%

V. 使用方法

II-Medical-8B-1706 模型的使用方式与 Qwen 或 Deepseek-R1-蒸馏模型相同。例如，可以轻松使用 vLLM 启动服务：

vllm serve Intelligent-Internet/II-Medical-8B-1706

也可以使用 SGLang 启动服务：

python -m sglang.launch_server --model Intelligent-Internet/II-Medical-8B-1706

VI. 使用指南

推荐的采样参数为：温度 = 0.6，Top-p = 0.9。使用时，应明确要求逐步推理，并在最终答案中使用 \boxed{} 格式（例如，“请逐步推理，并将最终答案放在 \boxed{} 中。”）。

VII. 局限性和注意事项

数据集可能包含源材料中的固有偏见，医学知识需要定期更新，请注意，该模型不适用于医学用途。

核心技术汇总

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her