百度ERNIE 4.5-VL：280亿参数多模态大模型发布

百度正式发布ERNIE 4.5-VL-28B-A3B-PT多模态大模型，以280亿总参数和30亿激活参数的异构混合架构，进一步推动视觉-语言融合理解能力的边界拓展。## 行业现状：多模态大模型进入参数与效率并行时代当前AI领域正经历从单一模态向多模态融合的关键转型期。据行业研究显示，2024年全球多模态大模型市场规模同比增长达178%，其中视觉-语言模型在智能交互、内容创作、工业质检等领域

霍忻念

191人浏览 · 2026-02-07 04:07:36

霍忻念 · 2026-02-07 04:07:36 发布

百度ERNIE 4.5-VL：280亿参数多模态大模型发布

【免费下载链接】ERNIE-4.5-VL-28B-A3B-PT 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/ERNIE-4.5-VL-28B-A3B-PT

百度正式发布ERNIE 4.5-VL-28B-A3B-PT多模态大模型，以280亿总参数和30亿激活参数的异构混合架构，进一步推动视觉-语言融合理解能力的边界拓展。

行业现状：多模态大模型进入参数与效率并行时代

当前AI领域正经历从单一模态向多模态融合的关键转型期。据行业研究显示，2024年全球多模态大模型市场规模同比增长达178%，其中视觉-语言模型在智能交互、内容创作、工业质检等领域的应用渗透率已突破35%。随着GPT-4V、Gemini Pro等竞品的迭代，参数规模竞赛逐渐转向"高效能计算"与"任务适配性"的双重维度，模型架构创新成为核心竞争力。

模型亮点：异构MoE架构与跨模态协同创新

ERNIE 4.5-VL采用突破性的异构混合专家（MoE）架构，实现了文本与视觉模态的深度协同。该模型包含64个文本专家和64个视觉专家，每个token处理时动态激活6个文本专家与6个视觉专家，并共享2个跨模态专家，在保证280亿总参数规模的同时，将单次推理的激活参数控制在30亿，大幅提升计算效率。

其核心技术创新体现在三个方面：首先是多模态异构MoE预训练，通过模态隔离路由机制和路由器正交损失函数，解决了传统多模态模型中模态相互干扰的问题；其次是高效扩展基础设施，采用节点内专家并行、FP8混合精度训练和卷积码量化算法，实现4位/2位无损量化推理；最后是模态特定后训练，针对视觉-语言任务优化了SFT（监督微调）、DPO（直接偏好优化）和UPO（统一偏好优化）的组合策略。

模型配置上，ERNIE 4.5-VL具备28层网络结构，20个查询头和4个键值头，支持131072 tokens的超长上下文长度，可处理万字级文本与高分辨率图像的混合输入。官方提供基于Transformers库的Python推理接口，并支持vLLM框架部署，降低了企业级应用的技术门槛。

行业影响：重新定义多模态交互标准

该模型的发布将在三个层面重塑行业格局：在技术层面，异构MoE架构为解决"模态鸿沟"提供了新范式，其30亿激活参数的设计平衡了性能与算力成本；在应用层面，13万token上下文能力使长文档理解、多图对比分析等复杂任务成为可能；在生态层面，Apache 2.0开源协议将促进学术研究与商业应用的双向迭代。

特别值得注意的是，百度在模型优化阶段引入的RLVR（带可验证奖励的强化学习）机制，显著提升了复杂推理任务的准确性。据内部测试数据，该模型在图像描述生成、视觉问答、跨模态检索等12项主流评测中均达到行业领先水平，尤其在医疗影像分析、工业缺陷检测等专业领域的准确率较上一代提升23%。

结论与前瞻：迈向通用人工智能的关键一步

ERNIE 4.5-VL的推出标志着百度在多模态大模型领域的战略布局进入新阶段。其异构MoE架构不仅实现了参数规模的突破，更通过精细化的模态协同设计，为通用人工智能（AGI）的发展提供了重要技术参考。随着模型在教育、医疗、制造等垂直领域的落地，预计将催生一批基于多模态理解的创新应用场景，推动AI技术从工具属性向生产力要素的深层转变。

未来，随着边缘计算与模型压缩技术的进步，这类大规模多模态模型有望逐步向终端设备渗透，构建"云-边-端"协同的智能生态体系。而百度在PaddlePaddle深度学习框架上的技术积累，将为其在多模态模型的持续迭代中提供差异化竞争力。

【免费下载链接】ERNIE-4.5-VL-28B-A3B-PT 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/ERNIE-4.5-VL-28B-A3B-PT

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的