小米公司于 2025 年 5 月 30 日正式开源了其多模态大模型 MiMo-VL-7B,在图像、视频和语言的综合问答与理解推理任务中展现了卓越的能力,甚至在某些任务上超越了闭源模型 GPT-4o,成为当前开源模型中的佼佼者。blog.csdn.net+7sohu.com+7sohu.com+7


🔍 模型亮点与技术特性

🧠 多模态推理能力

  • 参数规模与性能:MiMo-VL-7B 仅有 7B 参数规模,却在多项任务上表现出色,尤其是在多模态推理方面。blog.csdn.net+7news.sohu.com+7sohu.com+7

  • 竞赛表现:在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中,MiMo-VL-7B 超越了参数规模是其 10 倍的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,甚至在某些任务上超过了闭源模型 GPT-4o。arxiv.org+7sohu.com+7news.sohu.com+7

🖼️ 图像与 GUI 理解

  • GUI Grounding 任务:MiMo-VL-7B 在 GUI Grounding 任务上的表现可与专用模型相媲美,展示了其在智能代理(Agent)时代的巨大潜力。arxiv.org+9sohu.com+9oschina.net+9

  • 实际应用示例:例如,用户可以通过 MiMo-VL-7B 将小米 SU7 添加到心愿单中,从而享受更便捷的智能体验。news.qq.com+3sohu.com+3sohu.com+3

🔧 创新训练方法

  • 多阶段预训练:小米团队收集、清洗、合成了高质量的预训练多模态数据,涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型,总计 2.4T tokens。通过分阶段调整不同类型数据的比例,强化了长程多模态推理的能力。sohu.com+2oschina.net+2news.qq.com+2

  • 混合在线强化学习(MORL):结合文本推理、多模态感知与推理、RLHF 等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。sohu.com+2oschina.net+2news.qq.com+2


📥 获取与部署


✅ 总结

MiMo-VL-7B 的发布标志着小米在多模态大模型领域取得了重要突破,其在推理、感知和用户体验等方面的能力已接近甚至超越部分国际主流模型。对于开发者和研究者而言,这是一个值得关注和尝试的新选择。blog.csdn.net+8oschina.net+8news.qq.com+8

如果您需要进一步了解如何部署或使用 MiMo-VL-7B,或希望获取更多关于其性能测试的信息,欢迎提出具体问题。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐