文心友约|ERNIE-4.5-VL 多模态大模型,等你“大显身手”!
ERNIE-4.5-VL展现出对中国视觉知识的深刻理解,其在CCBench上的出色表现便是证明。实验结果表明,轻量级视觉语言模型ERNIE-4.5-28B-A3B的激活参数显著减少,但与Qwen2.5-VL-7B和Qwen2.5-VL-32B相比,其在大多数基准测试中仍具有竞争力,甚至表现更优。无论你是企业主体/职场人/自由职业者/创业团队,欢迎分享你使用ERNIE-4.5-VL实现的应用成果,不





当 AI 技术从实验室走向千行百业,多模态交互正成为打破数字壁垒的关键。6 月 30 日,百度文心 4.5 系列模型重磅开源,其中ERNIE-4.5-VL 视觉语言模型(ERNIE-4.5-VL-28B-A3B;ERNIE-4.5-VL-424B-A47B)以卓越的图文视频理解能力,支持 100 + 语言交互,为智能应用开辟全新可能。
先来了解下ERNIE-4.5-VL 视觉语言模型的技术亮点。





小参数,大能量:
效率与性能的双重突破
实验结果表明,轻量级视觉语言模型ERNIE-4.5-28B-A3B的激活参数显著减少,但与Qwen2.5-VL-7B和Qwen2.5-VL-32B相比,其在大多数基准测试中仍具有竞争力,甚至表现更优。模型支持128K 上下文长度,结合「思考模式」与「非思考模式」双选项,既能快速响应基础任务,又能深度破解复杂问题,灵活适配从日常场景到专业领域的全场景需求。
非思考模式下,ERNIE-4.5-VL模型具备强大的视觉感知能力与知识准确性。ERNIE-4.5-VL-424B-A47B在CountBench、CV-Bench和RealWorldQA等基准测试中取得高分;ERNIE-4.5-VL展现出对中国视觉知识的深刻理解,其在CCBench上的出色表现便是证明。
思考模式下,ERNIE-4.5-VL-424B-A47B在MathVista、MMMU和VisualPuzzle等基准测试中超越OpenAI-o1。
详情查看技术报告:
https://ernie-blog-dev.now.baidu.com/blog/publication/ERNIE_Technical_Report.pdf





全场景赋能:
跨模态智能触手可及
ERNIE-4.5-VL 的跨模态能力覆盖以下核心任务场景:
-
文档处理「一键通」:拍照/扫描的文档理解、医疗报告结构化信息抽取、金融/货运等单据智能处理等场景,彻底告别繁琐录入。
-
视频管理「智能化」:智能视频剪辑与素材管理、自动化高光集锦生成、智能安防与事后追溯等场景,让视频从「存储」变为「会说话的资产」;
-
文化传承「活起来」:博物馆学术研究、博物馆文物导览、古籍数字化等场景,让千年文明触手可及;
-
学习解题「超轻松」:从 K12 拍照解题、公务员图形题解析,到网络梗图的趣味解读,让学习与生活更高效;
-
生活服务「更懂你」:现实/虚拟人物科普、旅游景点导览、动植物专业科普等,让 AI 成为贴心生活助手;
-
创意生成「个性化」:营养食物均衡分析、穿着搭配建议生成等,基于图像的创意输出,让生活更有品质。



实例印证:
智能看得见、用得着
PART 01
OCR解析与文档理解
-
支持多语言文档解析,提取关键信息并结构化输出;
-
高精度识别复杂格式文本,关联上下文语义。



PART 02
视频内容时序定位
-
支持视频内容理解,视频中的文字提取、翻译;
-
根据视频内容创作脚本、字幕;
-
视频特定事件时间点精准定位。


PART 03
中国文化理解
-
精准识别小篆、隶书、楷书、行书等各类传统字体;
-
专业识别文物类型、年代、工艺,解读其历史文化与艺术价值;
-
细致识别图像中的传统建筑、服饰等中国文化元素,挖掘象征意义。


PART 04
学科推理
-
文科图文题精解,融合历史地图、社会调查图表等图像信息与文史知识剖析问题。
-
理科图示题巧析,结合几何图形、实验装置图等图示和数理原理推导解题思路。
-
艺术图像题妙答,依据绘画作品、音乐乐谱等艺术图像和相关理论分析解答。



(左右滑动查看更多
)
PART 05
视觉推理
-
归纳推理:识别图形序列规律,准确预测缺失项
-
空间感知:从二维图像中推断物体的相对位置、遮挡关系及可能的三维结构
-
复杂推理:基于单张或多张图像中的显性与隐性线索,经过多轮中间推断得到最终答案



PART 06
常识推理
-
精准识别文物、名人,实现准确的的常识链推理。
-
根据景观轮廓、建筑风格或自然特征快速识别地标,并推断所在城市或国家。
-
通过外形、颜色、纹理等特征精准辨认动植物种类。


PART 07
图像条件创意生成
根据输入图像,生成与视觉内容语义相关的创意内容。



有奖征集
@文心友友们
多模态大模型的真正价值,在于对真实场景的适配能力。不妨结合你的工作与生活场景,用实际数据测试 ERNIE-4.5-VL 的硬核实力:
-
职场人:用日常经手的英文合同、带复杂图表的财务报表拍照上传,观察它能否精准提取关键信息并生成结构化数据,对比人工处理的效率差;
-
教育工作者:选取学生常出错的数学应用题、公务员考试图形推理真题,测试它的解题步骤是否清晰,能否举一反三给出同类题型;
-
文化爱好者:拍摄博物馆参观时的文物照片(如青铜器铭文、古画题跋),验证它对文字的识别精度和背后历史文化解读的专业性;
-
内容创作者:用自己拍摄的 vlog 片段或赛事录像,指令其自动生成字幕、剪辑高光片段,看看是否符合你的创作预期。
征集内容:
无论你是企业主体/职场人/自由职业者/创业团队,欢迎分享你使用ERNIE-4.5-VL实现的应用成果,不限于图/视频/链接/demo等形式,我们也欢迎有真实业务场景的企业一起共建共创产业应用。
提交地址:
https://www.wjx.top/vm/htiOklF.aspx#
奖品清单:
筛选30位优质应用成果赠送以下奖品。



▎相关链接
■ 文心4.5系列模型下载
-
Hugging Face:
https://huggingface.co/baidu
-
飞桨星河社区:
https://aistudio.baidu.com/modelsoverview?sortBy=weight&q=ernie
-
GitHub:
https://github.com/PaddlePaddle/ERNIE
-
魔搭社区:
https://modelscope.cn/models/dengcao/ERNIE-4.5-VL-28B-A3B-Paddle
■ 文心4.5系列模型训练部署
-
ERNIEKit:
https://github.com/PaddlePaddle/ERNIE/blob/develop/docs/erniekit.md
-
FastDeploy:
https://github.com/PaddlePaddle/FastDeploy/

关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
更多推荐




所有评论(0)