MiniCPM-o 4.5：90亿参数全双工多模态AI新标杆

沈昂钧

362人浏览 · 2026-03-26 04:00:45

沈昂钧 · 2026-03-26 04:00:45 发布

MiniCPM-o 4.5：90亿参数全双工多模态AI新标杆

【免费下载链接】MiniCPM-o-4_5-gguf MiniCPM-o-4_5是开源9B参数多模态模型，视觉能力达OpenCompass 77.6分，超越GPT-4o等，接近Gemini 2.5 Flash。支持中英双语实时语音对话、声音克隆，创新全双工多模态直播，可同时处理音视频流并生成输出，具备强OCR和多语言能力，本地CPU高效推理。【此简介由AI生成】项目地址: https://ai.gitcode.com/OpenBMB/MiniCPM-o-4_5-gguf

导语

OpenBMB最新发布的MiniCPM-o 4.5以90亿参数实现了超越GPT-4o的视觉能力，首创全双工多模态直播技术，标志着本地部署的多模态AI进入"能看、能听、能同时回应"的新阶段。

行业现状

当前多模态大模型正朝着"低参数、高性能、强交互"方向快速演进。据OpenCompass最新评估，主流9B参数模型的视觉能力已接近闭源大模型水平，但在实时音视频交互领域仍存在"输入输出阻塞"的技术瓶颈。市场调研显示，2025年全球多模态AI应用市场规模预计突破800亿美元，其中实时交互场景占比将达45%。

产品/模型亮点

突破性能边界的视觉能力
MiniCPM-o 4.5在OpenCompass综合评测中以77.6分超越GPT-4o，接近Gemini 2.5 Flash水平。其创新的视觉编码器可处理180万像素高清图像，在OCR任务中实现96.1%的文档解析准确率，超越DeepSeek-OCR 2等专业工具。

全双工多模态交互革命
作为全球首个支持全双工直播的开源模型，MiniCPM-o 4.5可同时处理音视频输入流并生成输出，实现"边听边说"的自然交互。通过WebRTC Demo演示，该模型能在10fps视频流中实时识别动作并同步语音反馈，延迟控制在300ms以内。

该流程图展示了MiniCPM-o 4.5的技术架构：多模态输入经编码后进入全双工模型，通过静默令牌机制实现输入输出并行处理，最后经流式解码器生成同步音频。这种架构突破了传统模型的交互阻塞限制，为实时直播奠定技术基础。

端侧部署的极致优化
通过GGUF格式量化和llama.cpp支持，模型可在MacBook等消费级设备上实现CPU高效推理。int4量化版本仅需11GB显存，解码速度达212 tokens/s，较同类模型提升44%，首次实现移动端全双工多模态交互。

多模态能力矩阵

语音交互：支持中英双语实时对话，声音克隆技术超越CosyVoice2，情感控制评分达82.1分
文档理解：在OmniDocBench英文文档解析任务中，综合错误率仅0.109，超越GPT-5和Gemini 3 Flash
视频分析：支持10fps视频流处理，在Video-MME benchmark中获得70.4分，接近Gemini 2.5 Flash水平

该表格对比了MiniCPM-o 4.5与Qwen3-Omni、Gemini等模型的多任务性能。数据显示，在仅90亿参数下，MiniCPM-o 4.5在MMBench CN（87.2分）、MathVista（80.1分）等6项指标中位列第一，证明小参数模型的效率优势。

行业影响

MiniCPM-o 4.5的推出将加速多模态AI的应用落地：在教育领域，其OCR和数学推理能力已支持复杂公式识别与解题步骤生成；在远程协作场景，全双工交互可实现"类面对面"的实时沟通；在智能监控领域，10fps视频分析能力使异常行为识别延迟从秒级降至亚秒级。

此图展示了MiniCPM-o 4.5的文档理解能力，左侧准确识别学术文献中的Hazard Index公式和重金属数据表，右侧正确解析手写零售分析中的销售增长数据。这种能力为科研分析、商业智能等领域提供高效工具支持。

结论/前瞻

MiniCPM-o 4.5以90亿参数实现了"小而美"的技术突破，其全双工交互和端侧部署能力重新定义了多模态AI的应用边界。随着Docker镜像和WebRTC Demo的开放，开发者可快速构建实时视频助手、智能教学系统等创新应用。未来，随着模型在多语言支持（当前已覆盖30+语种）和主动交互能力上的进一步优化，多模态AI将从"被动响应"向"主动理解"跨越，推动智能交互进入新阶段。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Dify 接入蓝耘 MaaS：基于智能客服分流模板搭建一个客服助手

AI Agent技术社区

2026年企业级大模型API聚合平台选型指南：协议兼容、稳定性与治理能力深度解析

因此，在企业级场景下，选择合适的API聚合平台已经不再只是采购问题，而是一项长期架构决策。| 平台| 模型覆盖规模 | 协议兼容能力| 生产稳定性| 企业管理能力| 成本管理特点| 适用场景|| 星链4SAPI| 480+| OpenAI、Anthropic、Gemini原生兼容 | 企业级可用性设计 | 多账号、审计、额度管理 | 提供细粒度Token统计 | 多模型生产环境|