note

一、QwQ-32B

模型:https://huggingface.co/Qwen/QwQ-32B

使用RL训练,没使用传统的奖励模型,使用数学答案检查器、代码执行器等规则奖励。

指标和ds基本持平:
在这里插入图片描述

Reference

[1] https://huggingface.co/Qwen/QwQ-32B
[2] https://qwenlm.github.io/blog/qwq-32b/

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐