多模态 AI 走到哪了？从 GPT-4V 到 Gemini 的进化

u010528718

19人浏览 · 2026-06-22 08:08:09

u010528718 · 2026-06-22 08:08:09 发布

引言：多模态 AI 的爆发之年

2023 年秋天，OpenAI 发布了 GPT-4V，第一次让 ChatGPT 能够"看见"世界。用户上传一张冰箱照片，AI 就能推荐晚餐食谱；拍一张白板上的手绘图，AI 就能转换成可运行的代码。这不仅仅是功能上的小更新——它标志着 AI 从"文字对话"迈入了"多模态理解"的新纪元。

两年多过去了，多模态 AI 领域发生了翻天覆地的变化。从 GPT-4V 到 Gemini 2.5，从 Claude 3.5 Vision 到开源界的 LLaVA 和 Qwen-VL，多模态模型的能力边界被一次次推远。今天，我们来聊聊这场进化到底走到了哪里。

GPT-4V：开创者

GPT-4V 的发布是里程碑式的。它首次将视觉理解能力无缝集成到了大语言模型中。用户可以通过自然语言与图像交互——让 AI 描述图片内容、从图表中提取数据、识别手写文字、甚至理解漫画的分镜逻辑。

它的核心突破在于：不再需要单独的视觉模型和文本模型的拼接，而是让同一个 Transformer 架构同时处理图像和文本 token。这种"端到端"的设计思路成为后来所有多模态模型的基准。

当然，初代 GPT-4V 也有局限。它的空间推理能力偏弱——"图片中那只猫在桌子的左边还是右边？"这类问题常出错。对高分辨率图像的理解也有限制，容易丢失细节。但这些不足并不妨碍它成为多模态 AI 的分水岭。

Gemini：Google 的全面反攻

Google 在多模态上的布局其实更早。Gemini 发布时，其最引人注目的卖点就是"原生多模态"——模型从训练之初就同时处理文本、图像、音频、视频和代码，而不是在文本模型上后期追加视觉能力。

这种"原生多模态"思路带来的直接好处是跨模态的理解更自然。Gemini 可以理解一段视频中的对话、画面和字幕之间的关联，这在 GPT-4V 上需要通过多步处理才能做到。2025 年发布的 Gemini 2.5 Pro 更进一步：上下文窗口达到 100 万 token，能一次性处理整部《三体》三部曲加上相关评论。

不过 Gemini 的使用体验一直有一个"中国特色"的痛点——在国内直接使用仍然比较麻烦，需要通过 API 或第三方中转。相比之下，国内用户更容易接触到的是 GPT 系列和本土多模态模型。

Claude 3.5 Vision：工程师的最爱

Anthropic 的 Claude 3.5 Sonnet 在视觉能力方面有其独特的优势。它在 UI 理解和代码截图还原方面的表现尤为出色——开发者和设计师用它来将设计稿转为前端代码、分析复杂的系统架构图、甚至调试 UI 布局问题。

Claude 的视觉能力之所以在开发者社区广受欢迎，除了准确性高之外，还有两个关键因素：一是它对图片中的文字识别准确率极高，适合处理截图和扫描文档；二是它的回答质量稳定、风格一致，不会因为图片输入的加入而"分心"。

2025 年 Claude 进一步扩展了 Artifacts 的能力，允许在对话中生成和预览交互式原型，配合视觉理解形成了完整的"看原型→改代码→预览效果"闭环。

开源方案的崛起：不再只是巨头的游戏

如果说 2023-2024 年的多模态 AI 还是 GPT-4V 和 Gemini 双雄争霸，那么 2025 年以后，开源社区的力量彻底改变了格局。

LLaVA：开源多模态的标杆

LLaVA（Large Language and Vision Assistant）是威斯康星大学麦迪逊分校和微软研究院的开源项目，开创了"视觉编码器 + 语言模型 + 投影层"的经典架构。LLaVA-1.6（2024）通过引入动态高分辨率技术和更优质的训练数据，在多个视觉问答基准上接近甚至超越了 GPT-4V。2025 年的 LLaVA-NeXT 系列进一步提升了视频理解能力。

Qwen-VL：来自中国的实力选手

阿里巴巴的 Qwen2.5-VL 系列在开源社区中异军突起。它支持动态分辨率——不将图片强制缩放到固定尺寸，而是根据内容自适应处理，这对包含大量文字的文档类图片尤其友好。Qwen2.5-VL 在 MathVista、ChartQA 等需要精细视觉推理的基准上表现优异，而且模型权重完全开源，可以在消费级 GPU 上部署。

InternVL：清华团队的深度探索

上海 AI Lab 和商汤科技联合推出的 InternVL 系列在规模上不断突破。InternVL2.5 将视觉理解和多模态对话能力提升到了新高度，尤其在大规模视觉语言模型的高效训练方法上做出了原创性贡献。

多模态能力的三大进化方向

回顾这两年多的进化，多模态 AI 的能力提升主要体现在三个维度：

1. 输入模态的扩展

从最初的"图片+文字"到今天，多模态模型的输入能力已经覆盖了图片、视频、音频、文档（PDF/PPT）、3D 点云甚至传感器数据。Gemini 2.5 可以处理长达数小时的视频，Claude 支持 PDF 文档的深度理解，国内的 Qwen2.5-VL 也能处理包含大量文字的扫描件。输入模态越丰富，AI 的应用场景就越广泛。

2. 细粒度理解的提升

早期的多模态模型对图像的理解停留在"分类+描述"的层面——"这是一只猫在沙发上"。现在的模型可以做到：识别图片中某一行具体文字、理解数据图表中的趋势变化、对比两张图片的细微差异、甚至从一张模糊的监控截图中找到特定细节。这种从"粗粒度"到"细粒度"的跃迁，是视觉 AI 走向实用的关键。

3. 推理能力的融合

最重要的变化或许不是"看得更清楚"，而是"想得更深入"。GPT-4V 时代，多模态模型更多的是在做描述和识别。而到了 2025-2026 年，多模态模型开始展现出真正的视觉推理能力——不仅仅是看到图片中的内容，还能基于看到的内容进行多步推理。例如：看到一张电路图，模型可以一步步分析故障可能出在哪里；看到一份财务图表，模型可以结合上下文数据判断趋势背后的原因。这种"视觉感知 + 链式推理"的结合，让多模态 AI 从"看图说话"进化到了"看图解题"。

应用场景的全面铺开

多模态 AI 的能力提升正迅速转化为实际应用：

医疗影像分析——辅助放射科医生识别病灶，生成诊断报告草案
工业质检——通过视觉 + 文本描述，自动识别生产线上的缺陷产品
教育领域——拍照解题、批改手写作业、将教科书内容转化为交互式学习体验
无障碍技术——为视障人士实时描述周围环境，读图、读菜单、读路牌
创意设计——从草图生成高保真设计稿，从文字描述生成视频内容
自动驾驶——融合摄像头、雷达、文本地图等多模态输入，做出驾驶决策

这其中，每一个方向背后都是一个百亿级甚至千亿级的市场。多模态 AI 的商业化价值正在被快速释放。

挑战与瓶颈

尽管进步巨大，多模态 AI 距离真正的"全能感知"还有不小的距离。

幻觉问题在多模态场景下更难处理。文字模型的幻觉已经让人头疼了，当模型既能"说"又能"看"时，它可能一本正经地描述一张并不存在的图片细节。视觉幻觉的检测比文本幻觉更难——用户需要亲自确认图片内容才能判断 AI 是否在胡说。

计算成本依然高企。处理一张高分辨率图片涉及的 token 数量可能达到数千甚至上万，推理成本比纯文本对话高出一个数量级。虽然各家都在优化（如动态分辨率、token 压缩），但要实现大规模部署的成本可控仍需努力。

视频理解还处于早期。尽管 Gemini 2.5 可以处理长视频，但大多数多模态模型对视频的理解更像是"按帧采样 + 文本总结"，缺乏真正的时序感知。一个视频中前后几秒的因果关系、镜头的叙事逻辑等，模型还很难把握。

安全与对齐的挑战。多模态模型可能面临新的攻击面——对抗性图片、隐写的恶意指令、视觉 prompt injection 等。如何确保模型在"看见"世界的同时不被误导，是一个开放的研究问题。

未来展望：通往通用视觉智能

展望未来，多模态 AI 的发展有几个明确的趋势：

第一，世界模型的概念正在从理论走向实践。特斯拉的 FSD 和 Google 的 Genie 都在尝试构建能理解物理世界运行规律的模型——不仅仅是识别物体，而是理解物体之间的物理交互。

第二，视频原生模型将取代"图片+帧采样"的方案。Sora 的开创性工作只是一个开始，未来的多模态模型将在视频数据上直接训练，具备真正的时序理解能力。

第三，多模态 Agent 化。让多模态 AI 不仅能"看"和"说"，还能"做"——通过视觉感知环境、规划行动、执行任务。从 Claude 的 Computer Use 功能到各种视觉驱动的机器人控制方案，多模态 Agent 正在成为下一个突破口。

第四，端侧部署。Apple Intelligence 和各家手机厂商的端侧多模态模型正在让 AI 理解能力走出云端，进入每一部手机。离线拍照翻译、实时 OCR、相册语义搜索等功能已经在高端手机上落地，未来将向中低端设备普及。

结语

从 GPT-4V 的惊艳亮相到 Gemini 的原生多模态，从开源社区的百花齐放到千行百业的落地应用，多模态 AI 在短短两年多的时间里完成了从"技术 demo"到"生产力工具"的蜕变。

如果说纯文本的 LLM 让 AI 学会了"阅读"，那么多模态 AI 正在让 AI 学会"观察"。当一个 AI 模型既能读懂《三体》又能看懂电路图、既能分析财报图表又能理解手术影像，它离真正的通用智能也就不远了。

这场进化还在加速——下一次突破，或许就在明天。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

2026 Claude多模态开发实战：用Claude 4的视觉+代码能力构建智能应用全流程

AI Agent技术社区

Headroom：AI Agent 的上下文压缩层

Headroom是一款针对AI Agent的本地化上下文压缩工具，能显著降低大模型交互的token消耗。它支持多种数据类型（JSON、代码、文本、图片等）的智能压缩，内置六种专用算法，包括JSON精简、代码AST分析和ML文本压缩等。通过四种接入方式（库模式、代理模式、Agent包装和MCP服务），Headroom可实现92%的压缩率（如65,694 token→5,118），同时保持任务准确性。