在消费级的显卡上看起来可以跑出来一个不错的一个小模型,大家可以实施

VibeThinker-3B是VibeThinker系列在3B参数规模上的进一步探索,专注于具有明确验证信号的挑战性推理任务,如数学、编程和STEM。通过系统优化VibeThinker-1.5B中引入的频谱到信号原理(SSP)后训练流程,VibeThinker-3B在AIME、HMMT、IMO-AnswerBench、LiveCodeBench以及最近的LeetCode竞赛中表现出色,在可验证推理基准测试中达到了包括Qwen3.6 Plus、Gemini 3 Pro、GLM-5和Kimi K2.5在内的顶级前沿推理模型的性能水平。

基于这些观察,我们提出了参数压缩-覆盖假设:不同的能力以根本不同的方式依赖于模型参数。可验证推理更接近于一种高度可压缩、参数密集的能力,其核心是多步推理、约束满足、自我纠正和答案验证。当任务空间结构充分且反馈信号足够可靠时,紧凑模型也可能具备接近前沿的推理能力。相比之下,开放域知识、通用对话和长尾场景理解则更依赖于大规模参数来广泛覆盖事实、概念和世界知识。

在模型规模相对的推理准确性方面,VibeThinker-3B仅使用30亿个参数,就在IMO-AnswerBench(一个包含400个IMO级别问题的极具挑战性的基准测试)上达到了76.4分,并且通过Claim-Level Reliability Assessment(CLR)(一种用于答案可验证推理任务的测试时缩放策略)提高到了80.6分。这表明,在严格的小模型范围内,一个模型可以达到远大于其自身规模模型的性能范围,如DeepSeek V3.2(78.3分,6710亿个参数)、GLM-5(82.5分,7440亿个参数)和Kimi K2.5(81.8分,1万亿个参数)。

根据模型大小,3B模型我们可以在消费级的显卡上进行跑对于的模型

从VibeThinker-1.5B到VibeThinker-3B,我们的目标并非构建一个小模型来取代大规模模型,而是要沿着特定的能力维度,探究小模型的真正边界。借助VibeThinker-3B,我们旨在表明,不应将小模型仅仅视为降低部署成本的权宜之计。对于具有明确反馈和验证机制的能力领域,小规模语言模型(SLM)正成为一条有前景的研究轨迹,其性能达到前沿水平,从根本上补充了传统的参数扩展范式。

本技术报告介绍了VibeThinker-3B,这是一个拥有30亿参数的紧凑密集模型,旨在探索在严格的小模型范围内,可验证推理能达到何种程度。基于Spectrum-to-Signal后训练范式,我们通过优化的流程系统地增强了该模型,该流程包括基于课程的有监督微调、多域强化学习和离线自蒸馏。实验评估表明,VibeThinker-3B在要求极高的可验证任务上取得了前沿水平的性能。具体而言,它在AIME26上的得分达到94.3(通过声明级测试时间缩放后提高到97.1),在LiveCodeBench v6上的Pass@1得分达到80.2,并且在最近的未见过的LeetCode竞赛中表现出强大的分布外泛化能力,接受率达到96.1%。这使其有效地跻身一流推理系统的性能行列,与规模大几个数量级的旗舰模型(如DeepSeek V3.2、GLM-5和Gemini 3 Pro)相当或超过它们。此外,在IFEval上获得93.4的得分,证实了这种极端的推理增强并不会损害严格的指令可控性。这些发现扩展了我们之前15亿参数的研究成果,并激发了参数压缩-覆盖假设的提出,该假设认为可验证推理可以压缩成紧凑的推理核心,而开放域知识和通用能力则需要对事实、概念和长尾场景具有广泛的参数覆盖。这一观点表明,紧凑模型不仅仅是部署高效的替代品,而是在参数密集能力范围内实现前沿水平性能的补充途径。


参考资料:
https://github.com/WeiboAI/VibeThinker
https://huggingface.co/WeiboAI/VibeThinker-3B
https://arxiv.org/abs/2606.16140

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐