看看KIMI怎么说-小米开源MiMo-VL多模态大模型
小米公司于2025年5月30日正式宣布开源其多模态大模型MiMo-VL,并开放了和两个版本的模型以及支持50+评测任务的框架至GitHub。这一举措为开源社区注入了新的活力,也预示着多模态大模型领域竞争的进一步加剧。小米开源的MiMo-VL多模态大模型在多个领域展现了强大的性能和广泛的应用潜力。其创新的架构设计和训练策略使其在多模态推理任务中表现优异,为开发者和研究人员提供了一个强大的工具和实验平
小米开源 MiMo-VL 多模态大模型
一、概述
小米公司于2025年5月30日正式宣布开源其多模态大模型 MiMo-VL,并开放了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本的模型以及支持50+评测任务的框架至GitHub。这一举措为开源社区注入了新的活力,也预示着多模态大模型领域竞争的进一步加剧。
二、功能特点
-
复杂图片推理与问答:能够对复杂图片进行推理和问答,准确理解图片内容并给出合理解释和答案。
-
GUI操作与交互:支持长达10多步的GUI操作,能理解和执行复杂的图形用户界面操作指令。
-
视频与语言理解:能够理解视频内容,结合语言进行推理和问答。
-
长文档解析与推理:能够处理长文档,进行复杂的推理和分析。
-
用户体验优化:通过混合在线强化学习算法(MORL),全方位提升模型的推理、感知性能和用户体验。
三、技术原理
-
视觉编码器:基于Qwen2.5-ViT,支持原生分辨率输入,保留更多细节。
-
跨模态投影层:使用MLP结构实现视觉与语言特征的对齐。
-
语言模型:采用小米自研的MiMo-7B基础模型,专为复杂推理优化。
-
多阶段预训练:
-
投影层预热:使用图文对数据,序列长度为8K。
-
视觉-语言对齐:使用图文交错数据,序列长度为8K。
-
多模态预训练:使用OCR/视频/GUI/推理数据,序列长度为8K。
-
长上下文SFT:使用高分辨率图像/长文档/长推理链,序列长度为32K。
-
-
混合在线强化学习(MORL):结合文本推理、多模态感知推理以及RLHF等反馈信号,全方位提升模型的推理、感知性能和用户体验。
四、性能表现
-
多模态推理:在多个多模态任务上表现出色,尤其在OlympiadBench和MathVision、MathVerse等数学竞赛中,MiMo-VL-7B仅凭借70亿参数的规模,大幅领先于参数规模是其10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了闭源模型GPT-4o。
-
用户体验:在内部大模型竞技场中,MiMo-VL-7B超越了GPT-4o,成为开源模型中的佼佼者。
五、应用场景
-
智能客服:完成复杂图片推理和问答等任务,为用户提供更加智能、便捷的服务。
-
智能家居:通过对家庭照片、视频等多媒体数据的理解,实现GUI Grounding任务,提高人机交互的效率和体验。
-
智能医疗:通过对医学图像和文本的理解,辅助医生进行诊断和治疗。
-
教育领域:辅助数学解题和编程学习,提供解题步骤和代码示例。
-
科研与学术:协助逻辑推理和算法开发,帮助研究人员验证假设和设计实验。
六、开源信息
-
Github仓库:GitHub - XiaomiMiMo/MiMo-VL
-
HuggingFace模型库:https://huggingface.co/collections/XiaomiMiMo/mimo-vl
七、总结
小米开源的MiMo-VL多模态大模型在多个领域展现了强大的性能和广泛的应用潜力。其创新的架构设计和训练策略使其在多模态推理任务中表现优异,为开发者和研究人员提供了一个强大的工具和实验平台。
更多推荐


所有评论(0)