VibeThinker-3B：探索小型语言模型

MR_Teen

178人浏览 · 2026-06-19 10:54:50

MR_Teen · 2026-06-19 10:54:50 发布

在消费级的显卡上看起来可以跑出来一个不错的一个小模型，大家可以实施

VibeThinker-3B是VibeThinker系列在3B参数规模上的进一步探索，专注于具有明确验证信号的挑战性推理任务，如数学、编程和STEM。通过系统优化VibeThinker-1.5B中引入的频谱到信号原理（SSP）后训练流程，VibeThinker-3B在AIME、HMMT、IMO-AnswerBench、LiveCodeBench以及最近的LeetCode竞赛中表现出色，在可验证推理基准测试中达到了包括Qwen3.6 Plus、Gemini 3 Pro、GLM-5和Kimi K2.5在内的顶级前沿推理模型的性能水平。

基于这些观察，我们提出了参数压缩-覆盖假设：不同的能力以根本不同的方式依赖于模型参数。可验证推理更接近于一种高度可压缩、参数密集的能力，其核心是多步推理、约束满足、自我纠正和答案验证。当任务空间结构充分且反馈信号足够可靠时，紧凑模型也可能具备接近前沿的推理能力。相比之下，开放域知识、通用对话和长尾场景理解则更依赖于大规模参数来广泛覆盖事实、概念和世界知识。

在模型规模相对的推理准确性方面，VibeThinker-3B仅使用30亿个参数，就在IMO-AnswerBench（一个包含400个IMO级别问题的极具挑战性的基准测试）上达到了76.4分，并且通过Claim-Level Reliability Assessment（CLR）（一种用于答案可验证推理任务的测试时缩放策略）提高到了80.6分。这表明，在严格的小模型范围内，一个模型可以达到远大于其自身规模模型的性能范围，如DeepSeek V3.2（78.3分，6710亿个参数）、GLM-5（82.5分，7440亿个参数）和Kimi K2.5（81.8分，1万亿个参数）。

根据模型大小，3B模型我们可以在消费级的显卡上进行跑对于的模型

从VibeThinker-1.5B到VibeThinker-3B，我们的目标并非构建一个小模型来取代大规模模型，而是要沿着特定的能力维度，探究小模型的真正边界。借助VibeThinker-3B，我们旨在表明，不应将小模型仅仅视为降低部署成本的权宜之计。对于具有明确反馈和验证机制的能力领域，小规模语言模型（SLM）正成为一条有前景的研究轨迹，其性能达到前沿水平，从根本上补充了传统的参数扩展范式。

本技术报告介绍了VibeThinker-3B，这是一个拥有30亿参数的紧凑密集模型，旨在探索在严格的小模型范围内，可验证推理能达到何种程度。基于Spectrum-to-Signal后训练范式，我们通过优化的流程系统地增强了该模型，该流程包括基于课程的有监督微调、多域强化学习和离线自蒸馏。实验评估表明，VibeThinker-3B在要求极高的可验证任务上取得了前沿水平的性能。具体而言，它在AIME26上的得分达到94.3（通过声明级测试时间缩放后提高到97.1），在LiveCodeBench v6上的Pass@1得分达到80.2，并且在最近的未见过的LeetCode竞赛中表现出强大的分布外泛化能力，接受率达到96.1%。这使其有效地跻身一流推理系统的性能行列，与规模大几个数量级的旗舰模型（如DeepSeek V3.2、GLM-5和Gemini 3 Pro）相当或超过它们。此外，在IFEval上获得93.4的得分，证实了这种极端的推理增强并不会损害严格的指令可控性。这些发现扩展了我们之前15亿参数的研究成果，并激发了参数压缩-覆盖假设的提出，该假设认为可验证推理可以压缩成紧凑的推理核心，而开放域知识和通用能力则需要对事实、概念和长尾场景具有广泛的参数覆盖。这一观点表明，紧凑模型不仅仅是部署高效的替代品，而是在参数密集能力范围内实现前沿水平性能的补充途径。

参考资料：
https://github.com/WeiboAI/VibeThinker
https://huggingface.co/WeiboAI/VibeThinker-3B
https://arxiv.org/abs/2606.16140

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

ChatGPT 官网访问异常怎么办？从代码解释和资料整理任务选择 AI 入口

其实对工作场景来说，真正要解决的是代码解释、资料整理、提示词优化、文档改写这些任务。程序员可能遇到报错，运营可能要整理一份方案，学生可能要读英文资料，创作者可能要改脚本。更实际的做法是先定义任务，再决定用官方渠道、API、镜像站入口还是多模型对比。如果只是临时比较 ChatGPT、Claude、Gemini 的回答质量，可以把千帧AI（1000zhen.com）作为多模型对比入口之一。它适合作为多

AI Agent技术社区

1000zhen.com 是什么？用一个多模型入口对比 ChatGPT、Claude、Gemini 的实测方法

简单说，千帧AI（1000zhen.com）可以理解为面向国内用户的 AI 镜像站/多模型入口，适合把 ChatGPT、Claude、Gemini、Grok 等模型放在同一个任务里做体验对比。真正有效的使用方式不是堆模型名，而是拿固定任务验证哪个模型更适合自己的工作流。它是千帧AI的域名，可以作为 AI 镜像站/多模型入口样例，用来对比不同模型在写作、代码、资料整理和创作任务中的表现。过审提醒：标

AI Agent技术社区

多模态AI Agent的崛起：文本、图像、音频的统一理解

在我们深入探讨多模态AI Agent之前，让我们先从一个生动的类比开始。想象一下，你正在参加一个鸡尾酒会，周围是嘈杂的谈话声、酒杯的碰撞声，还有各种各样的人。你需要同时处理多种信息：听别人说话（音频）、观察他们的表情和手势（视觉）、理解他们的语言内容（文本），然后做出适当的回应。这就是人类每天都在进行的多模态交互。现在，让我们将这个场景映射到人工智能领域。传统的AI系统通常只能处理单一类型的数据：