看看KIMI怎么说-小米开源MiMo-VL多模态大模型

小米公司于2025年5月30日正式宣布开源其多模态大模型MiMo-VL，并开放了和两个版本的模型以及支持50+评测任务的框架至GitHub。这一举措为开源社区注入了新的活力，也预示着多模态大模型领域竞争的进一步加剧。小米开源的MiMo-VL多模态大模型在多个领域展现了强大的性能和广泛的应用潜力。其创新的架构设计和训练策略使其在多模态推理任务中表现优异，为开发者和研究人员提供了一个强大的工具和实验平

释迦呼呼

1477人浏览 · 2025-06-05 16:44:54

释迦呼呼 · 2025-06-05 16:44:54 发布

小米开源 MiMo-VL 多模态大模型

一、概述

小米公司于2025年5月30日正式宣布开源其多模态大模型 MiMo-VL，并开放了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL 两个版本的模型以及支持50+评测任务的框架至GitHub。这一举措为开源社区注入了新的活力，也预示着多模态大模型领域竞争的进一步加剧。

二、功能特点

复杂图片推理与问答：能够对复杂图片进行推理和问答，准确理解图片内容并给出合理解释和答案。
GUI操作与交互：支持长达10多步的GUI操作，能理解和执行复杂的图形用户界面操作指令。
视频与语言理解：能够理解视频内容，结合语言进行推理和问答。
长文档解析与推理：能够处理长文档，进行复杂的推理和分析。
用户体验优化：通过混合在线强化学习算法（MORL），全方位提升模型的推理、感知性能和用户体验。

三、技术原理

视觉编码器：基于Qwen2.5-ViT，支持原生分辨率输入，保留更多细节。
跨模态投影层：使用MLP结构实现视觉与语言特征的对齐。
语言模型：采用小米自研的MiMo-7B基础模型，专为复杂推理优化。
多阶段预训练：
- 投影层预热：使用图文对数据，序列长度为8K。
- 视觉-语言对齐：使用图文交错数据，序列长度为8K。
- 多模态预训练：使用OCR/视频/GUI/推理数据，序列长度为8K。
- 长上下文SFT：使用高分辨率图像/长文档/长推理链，序列长度为32K。
混合在线强化学习（MORL）：结合文本推理、多模态感知推理以及RLHF等反馈信号，全方位提升模型的推理、感知性能和用户体验。

四、性能表现

多模态推理：在多个多模态任务上表现出色，尤其在OlympiadBench和MathVision、MathVerse等数学竞赛中，MiMo-VL-7B仅凭借70亿参数的规模，大幅领先于参数规模是其10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，甚至超越了闭源模型GPT-4o。
用户体验：在内部大模型竞技场中，MiMo-VL-7B超越了GPT-4o，成为开源模型中的佼佼者。

五、应用场景

智能客服：完成复杂图片推理和问答等任务，为用户提供更加智能、便捷的服务。
智能家居：通过对家庭照片、视频等多媒体数据的理解，实现GUI Grounding任务，提高人机交互的效率和体验。
智能医疗：通过对医学图像和文本的理解，辅助医生进行诊断和治疗。
教育领域：辅助数学解题和编程学习，提供解题步骤和代码示例。
科研与学术：协助逻辑推理和算法开发，帮助研究人员验证假设和设计实验。

六、开源信息

Github仓库：GitHub - XiaomiMiMo/MiMo-VL
HuggingFace模型库：https://huggingface.co/collections/XiaomiMiMo/mimo-vl

七、总结

小米开源的MiMo-VL多模态大模型在多个领域展现了强大的性能和广泛的应用潜力。其创新的架构设计和训练策略使其在多模态推理任务中表现优异，为开发者和研究人员提供了一个强大的工具和实验平台。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

聚合AI工具KULAAI：GPT、Claude、Gemini、DeepSeek热门模型一键使用

AI Agent技术社区

本地部署更安全！OpenClaw 数字员工搭建教程

AI Agent技术社区

NuminaMath-7B-CoT-openmind未来路线图：数学AI的发展方向

NuminaMath-7B-CoT-openmind作为一款专注于数学推理的AI模型，正引领着数学问题解决的智能化浪潮。本文将深入探讨这款数学AI的未来发展方向，为您揭示其在提升推理能力、扩展应用场景等方面的清晰路径。## 强化数学推理能力：迈向更高难度问题NuminaMath-7B-CoT-openmind目前已在AMC 12级别的数学竞赛问题上展现出一定的解题能力，但在AIME和数学奥