小米开源 MiMo-VL 多模态大模型

一、概述

小米公司于2025年5月30日正式宣布开源其多模态大模型 MiMo-VL,并开放了 MiMo-VL-7B-SFTMiMo-VL-7B-RL 两个版本的模型以及支持50+评测任务的框架至GitHub。这一举措为开源社区注入了新的活力,也预示着多模态大模型领域竞争的进一步加剧。

二、功能特点
  1. 复杂图片推理与问答:能够对复杂图片进行推理和问答,准确理解图片内容并给出合理解释和答案。

  2. GUI操作与交互:支持长达10多步的GUI操作,能理解和执行复杂的图形用户界面操作指令。

  3. 视频与语言理解:能够理解视频内容,结合语言进行推理和问答。

  4. 长文档解析与推理:能够处理长文档,进行复杂的推理和分析。

  5. 用户体验优化:通过混合在线强化学习算法(MORL),全方位提升模型的推理、感知性能和用户体验。

三、技术原理
  1. 视觉编码器:基于Qwen2.5-ViT,支持原生分辨率输入,保留更多细节。

  2. 跨模态投影层:使用MLP结构实现视觉与语言特征的对齐。

  3. 语言模型:采用小米自研的MiMo-7B基础模型,专为复杂推理优化。

  4. 多阶段预训练

    • 投影层预热:使用图文对数据,序列长度为8K。

    • 视觉-语言对齐:使用图文交错数据,序列长度为8K。

    • 多模态预训练:使用OCR/视频/GUI/推理数据,序列长度为8K。

    • 长上下文SFT:使用高分辨率图像/长文档/长推理链,序列长度为32K。

  5. 混合在线强化学习(MORL):结合文本推理、多模态感知推理以及RLHF等反馈信号,全方位提升模型的推理、感知性能和用户体验。

四、性能表现
  • 多模态推理:在多个多模态任务上表现出色,尤其在OlympiadBench和MathVision、MathVerse等数学竞赛中,MiMo-VL-7B仅凭借70亿参数的规模,大幅领先于参数规模是其10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了闭源模型GPT-4o。

  • 用户体验:在内部大模型竞技场中,MiMo-VL-7B超越了GPT-4o,成为开源模型中的佼佼者。

五、应用场景
  1. 智能客服:完成复杂图片推理和问答等任务,为用户提供更加智能、便捷的服务。

  2. 智能家居:通过对家庭照片、视频等多媒体数据的理解,实现GUI Grounding任务,提高人机交互的效率和体验。

  3. 智能医疗:通过对医学图像和文本的理解,辅助医生进行诊断和治疗。

  4. 教育领域:辅助数学解题和编程学习,提供解题步骤和代码示例。

  5. 科研与学术:协助逻辑推理和算法开发,帮助研究人员验证假设和设计实验。

六、开源信息
七、总结

小米开源的MiMo-VL多模态大模型在多个领域展现了强大的性能和广泛的应用潜力。其创新的架构设计和训练策略使其在多模态推理任务中表现优异,为开发者和研究人员提供了一个强大的工具和实验平台。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐