引言:多模态 AI 的爆发之年

2023 年秋天,OpenAI 发布了 GPT-4V,第一次让 ChatGPT 能够"看见"世界。用户上传一张冰箱照片,AI 就能推荐晚餐食谱;拍一张白板上的手绘图,AI 就能转换成可运行的代码。这不仅仅是功能上的小更新——它标志着 AI 从"文字对话"迈入了"多模态理解"的新纪元。

两年多过去了,多模态 AI 领域发生了翻天覆地的变化。从 GPT-4V 到 Gemini 2.5,从 Claude 3.5 Vision 到开源界的 LLaVA 和 Qwen-VL,多模态模型的能力边界被一次次推远。今天,我们来聊聊这场进化到底走到了哪里。

GPT-4V:开创者

GPT-4V 的发布是里程碑式的。它首次将视觉理解能力无缝集成到了大语言模型中。用户可以通过自然语言与图像交互——让 AI 描述图片内容、从图表中提取数据、识别手写文字、甚至理解漫画的分镜逻辑。

它的核心突破在于:不再需要单独的视觉模型和文本模型的拼接,而是让同一个 Transformer 架构同时处理图像和文本 token。这种"端到端"的设计思路成为后来所有多模态模型的基准。

当然,初代 GPT-4V 也有局限。它的空间推理能力偏弱——"图片中那只猫在桌子的左边还是右边?"这类问题常出错。对高分辨率图像的理解也有限制,容易丢失细节。但这些不足并不妨碍它成为多模态 AI 的分水岭。

Gemini:Google 的全面反攻

Google 在多模态上的布局其实更早。Gemini 发布时,其最引人注目的卖点就是"原生多模态"——模型从训练之初就同时处理文本、图像、音频、视频和代码,而不是在文本模型上后期追加视觉能力。

这种"原生多模态"思路带来的直接好处是跨模态的理解更自然。Gemini 可以理解一段视频中的对话、画面和字幕之间的关联,这在 GPT-4V 上需要通过多步处理才能做到。2025 年发布的 Gemini 2.5 Pro 更进一步:上下文窗口达到 100 万 token,能一次性处理整部《三体》三部曲加上相关评论。

不过 Gemini 的使用体验一直有一个"中国特色"的痛点——在国内直接使用仍然比较麻烦,需要通过 API 或第三方中转。相比之下,国内用户更容易接触到的是 GPT 系列和本土多模态模型。

Claude 3.5 Vision:工程师的最爱

Anthropic 的 Claude 3.5 Sonnet 在视觉能力方面有其独特的优势。它在 UI 理解和代码截图还原方面的表现尤为出色——开发者和设计师用它来将设计稿转为前端代码、分析复杂的系统架构图、甚至调试 UI 布局问题。

Claude 的视觉能力之所以在开发者社区广受欢迎,除了准确性高之外,还有两个关键因素:一是它对图片中的文字识别准确率极高,适合处理截图和扫描文档;二是它的回答质量稳定、风格一致,不会因为图片输入的加入而"分心"。

2025 年 Claude 进一步扩展了 Artifacts 的能力,允许在对话中生成和预览交互式原型,配合视觉理解形成了完整的"看原型→改代码→预览效果"闭环。

开源方案的崛起:不再只是巨头的游戏

如果说 2023-2024 年的多模态 AI 还是 GPT-4V 和 Gemini 双雄争霸,那么 2025 年以后,开源社区的力量彻底改变了格局。

LLaVA:开源多模态的标杆

LLaVA(Large Language and Vision Assistant)是威斯康星大学麦迪逊分校和微软研究院的开源项目,开创了"视觉编码器 + 语言模型 + 投影层"的经典架构。LLaVA-1.6(2024)通过引入动态高分辨率技术和更优质的训练数据,在多个视觉问答基准上接近甚至超越了 GPT-4V。2025 年的 LLaVA-NeXT 系列进一步提升了视频理解能力。

Qwen-VL:来自中国的实力选手

阿里巴巴的 Qwen2.5-VL 系列在开源社区中异军突起。它支持动态分辨率——不将图片强制缩放到固定尺寸,而是根据内容自适应处理,这对包含大量文字的文档类图片尤其友好。Qwen2.5-VL 在 MathVista、ChartQA 等需要精细视觉推理的基准上表现优异,而且模型权重完全开源,可以在消费级 GPU 上部署。

InternVL:清华团队的深度探索

上海 AI Lab 和商汤科技联合推出的 InternVL 系列在规模上不断突破。InternVL2.5 将视觉理解和多模态对话能力提升到了新高度,尤其在大规模视觉语言模型的高效训练方法上做出了原创性贡献。

多模态能力的三大进化方向

回顾这两年多的进化,多模态 AI 的能力提升主要体现在三个维度:

1. 输入模态的扩展

从最初的"图片+文字"到今天,多模态模型的输入能力已经覆盖了图片、视频、音频、文档(PDF/PPT)、3D 点云甚至传感器数据。Gemini 2.5 可以处理长达数小时的视频,Claude 支持 PDF 文档的深度理解,国内的 Qwen2.5-VL 也能处理包含大量文字的扫描件。输入模态越丰富,AI 的应用场景就越广泛。

2. 细粒度理解的提升

早期的多模态模型对图像的理解停留在"分类+描述"的层面——"这是一只猫在沙发上"。现在的模型可以做到:识别图片中某一行具体文字、理解数据图表中的趋势变化、对比两张图片的细微差异、甚至从一张模糊的监控截图中找到特定细节。这种从"粗粒度"到"细粒度"的跃迁,是视觉 AI 走向实用的关键。

3. 推理能力的融合

最重要的变化或许不是"看得更清楚",而是"想得更深入"。GPT-4V 时代,多模态模型更多的是在做描述和识别。而到了 2025-2026 年,多模态模型开始展现出真正的视觉推理能力——不仅仅是看到图片中的内容,还能基于看到的内容进行多步推理。例如:看到一张电路图,模型可以一步步分析故障可能出在哪里;看到一份财务图表,模型可以结合上下文数据判断趋势背后的原因。这种"视觉感知 + 链式推理"的结合,让多模态 AI 从"看图说话"进化到了"看图解题"。

应用场景的全面铺开

多模态 AI 的能力提升正迅速转化为实际应用:

  • 医疗影像分析——辅助放射科医生识别病灶,生成诊断报告草案
  • 工业质检——通过视觉 + 文本描述,自动识别生产线上的缺陷产品
  • 教育领域——拍照解题、批改手写作业、将教科书内容转化为交互式学习体验
  • 无障碍技术——为视障人士实时描述周围环境,读图、读菜单、读路牌
  • 创意设计——从草图生成高保真设计稿,从文字描述生成视频内容
  • 自动驾驶——融合摄像头、雷达、文本地图等多模态输入,做出驾驶决策

这其中,每一个方向背后都是一个百亿级甚至千亿级的市场。多模态 AI 的商业化价值正在被快速释放。

挑战与瓶颈

尽管进步巨大,多模态 AI 距离真正的"全能感知"还有不小的距离。

幻觉问题在多模态场景下更难处理。文字模型的幻觉已经让人头疼了,当模型既能"说"又能"看"时,它可能一本正经地描述一张并不存在的图片细节。视觉幻觉的检测比文本幻觉更难——用户需要亲自确认图片内容才能判断 AI 是否在胡说。

计算成本依然高企。处理一张高分辨率图片涉及的 token 数量可能达到数千甚至上万,推理成本比纯文本对话高出一个数量级。虽然各家都在优化(如动态分辨率、token 压缩),但要实现大规模部署的成本可控仍需努力。

视频理解还处于早期。尽管 Gemini 2.5 可以处理长视频,但大多数多模态模型对视频的理解更像是"按帧采样 + 文本总结",缺乏真正的时序感知。一个视频中前后几秒的因果关系、镜头的叙事逻辑等,模型还很难把握。

安全与对齐的挑战。多模态模型可能面临新的攻击面——对抗性图片、隐写的恶意指令、视觉 prompt injection 等。如何确保模型在"看见"世界的同时不被误导,是一个开放的研究问题。

未来展望:通往通用视觉智能

展望未来,多模态 AI 的发展有几个明确的趋势:

第一,世界模型的概念正在从理论走向实践。特斯拉的 FSD 和 Google 的 Genie 都在尝试构建能理解物理世界运行规律的模型——不仅仅是识别物体,而是理解物体之间的物理交互。

第二,视频原生模型将取代"图片+帧采样"的方案。Sora 的开创性工作只是一个开始,未来的多模态模型将在视频数据上直接训练,具备真正的时序理解能力。

第三,多模态 Agent 化。让多模态 AI 不仅能"看"和"说",还能"做"——通过视觉感知环境、规划行动、执行任务。从 Claude 的 Computer Use 功能到各种视觉驱动的机器人控制方案,多模态 Agent 正在成为下一个突破口。

第四,端侧部署。Apple Intelligence 和各家手机厂商的端侧多模态模型正在让 AI 理解能力走出云端,进入每一部手机。离线拍照翻译、实时 OCR、相册语义搜索等功能已经在高端手机上落地,未来将向中低端设备普及。

结语

从 GPT-4V 的惊艳亮相到 Gemini 的原生多模态,从开源社区的百花齐放到千行百业的落地应用,多模态 AI 在短短两年多的时间里完成了从"技术 demo"到"生产力工具"的蜕变。

如果说纯文本的 LLM 让 AI 学会了"阅读",那么多模态 AI 正在让 AI 学会"观察"。当一个 AI 模型既能读懂《三体》又能看懂电路图、既能分析财报图表又能理解手术影像,它离真正的通用智能也就不远了。

这场进化还在加速——下一次突破,或许就在明天。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐