大模型算法（八）：多模态大模型

wlyswh2010

431人浏览 · 2026-03-02 10:02:08

wlyswh2010 · 2026-03-02 10:02:08 发布

1. 多模态大语言模型（MLLM）

1.1 定义和分类

模态（Modal）

模态是指信息被感知和呈现的方式。我们生活在一个由多种模态信息构成的世界，常见的模态包括：

视觉信息：图像、视频
听觉信息：音频、语音
文本信息：文字、语言
其他：嗅觉、触觉等

多模态数据示例：描述 “下雨天” 这一对象时，可以通过以下不同模态的数据来呈现：

图像：一张路面倒影的照片
视频：一段记录雨景的动态影像
音频：一段雨声的录音
文本：“下雨天，淅淅沥沥地，街道上布满了雨水，路边的树木倒影在路面上。”

多模态大语言模型（MLLMs）

MLLMs 是由传统大语言模型（LLMs）扩展而来的新一代模型，其核心能力是：

接收：同时处理和输入多种模态的数据（如图像、音频、文本）。
推理：对这些多模态信息进行综合理解、关联分析，并生成跨模态的输出或决策。

示例：当输入一张积水路面的图像和一段雨声的音频时，MLLMs 可以像人一样进行综合判断：

“听雨声，观察路面积水情况。判断现在是否适合出门？”

这体现了 MLLMs 超越单一文本处理，实现 “多感知 - 多理解 - 多决策” 的能力。

MLLMs 的核心价值

更贴近人类认知：人类本身就是通过视觉、听觉、语言等多种方式感知世界，MLLMs 模拟了这种多模态交互的认知方式。
信息处理更全面：单一模态信息往往存在局限，多模态融合可以提供更丰富、更准确的上下文。
应用场景更广泛：
- 视觉问答（VQA）：根据图片回答问题。
- 多模态对话：结合图像、音频进行自然交流。
- 内容生成：根据文本描述生成图像，或根据图像生成描述性文本。
- 辅助决策：如医疗影像分析、自动驾驶环境感知等。

典型技术路线

MLLMs 的构建通常基于已有的大语言模型（如 LLaMA、GPT 等），通过以下方式扩展多模态能力：

模态编码器：为每种模态（图像、音频等）训练或使用预训练的编码器，将其转换为语言模型可以理解的 “特征表示”。
跨模态对齐：将不同模态的特征映射到同一个语义空间，使模型能够理解它们之间的关联。
指令微调：使用大量多模态指令数据对模型进行微调，使其学会根据多模态输入执行特定任务。

单模态大模型 (Uni-modal Large Model)
- 定义：只处理和生成单一类型数据模态的大模型。
- 典型代表：
  - 语言大模型 (LLM)：如 GPT、Llama，只处理文本。
  - 视觉大模型 (LVM)：如 SAM、ViT 系列，只处理图像 / 视频。
- 特点：在单一领域内能力极强，但无法理解和处理其他模态的信息。
跨模态模型 (Cross-modal Model)
- 定义：能够在两种不同模态之间建立映射关系，实现从一种模态到另一种模态的转换。
- 典型任务：
  - 图像描述（Image Captioning）：图像 → 文本
  - 文生图（Text-to-Image）：文本 → 图像
  - 语音识别（ASR）：音频 → 文本
  - 语音合成（TTS）：文本 → 音频
- 特点：重点在于 “转换”，而非 “融合理解”。它能把 A 模态的信息翻译成 B 模态，但不一定能像人一样同时理解两者的深层含义。
多模态模型 (Multimodal Model)
- 定义：能够同时接收和处理多种模态的输入，并在统一的语义空间中进行融合和推理。
- 核心能力：
  - 多模态理解：同时 “看懂” 图像、“听懂” 语音、“读懂” 文字。
  - 跨模态推理：利用多种模态的信息进行综合判断，例如 “看图说话” 不仅是描述，还能回答关于图片内容的复杂问题。
- 特点：相比跨模态模型，它更强调对多模态信息的深度融合与统一理解，而不仅仅是简单的转换。
多模态语言大模型 (Multimodal Large Language Model, MLLM)
- 定义：以语言大模型 (LLM) 为核心，通过适配器（Adapter）或其他技术，将视觉、音频等其他模态的信息编码成语言模型能够理解的 “语言”，从而让语言模型具备感知和理解多模态世界的能力。
- 典型代表：GPT-4V、Gemini、Qwen-VL、LLaVA 等。
- 特点：它是当前多模态技术的主流范式，利用了 LLM 强大的逻辑推理和知识储备，使得多模态交互更加自然和智能。

1.2 单模态大模型

以视觉、文本、音频三种模态为例，展示单模态大模型的能力边界和交互方式：

文本模态（LLM）：作为中枢，通过TTS（文本转语音）和ASR（语音转文本）与音频模态交互；通过文生图 / 文生视频等任务与视觉模态交互。
视觉模态（LVM）：通过图像描述、目标检测等任务理解视觉信息；通过文生图、数字人等任务生成视觉内容；还可与音频结合完成声源分离、视听语音识别。
音频模态：作为补充，通过 ASR/TTS 实现与文本的转换，通过视听融合增强感知能力。

LVM 的文生图能力：

Prompts：通过文本或视觉提示引导模型生成内容。
Generated：模型根据提示生成对应的图像，如从 “一个石榴” 到 “多个石榴” 的递增生成。

代码和资源

视觉大模型（LVM）

论文标题：Sequential Modeling Enables Scalable Learning for Large Vision Models
作者：Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jitendra Malik, Alexei A. Efros
发表信息：CVPR 2024，arXiv:2312.00785
论文地址：
- arXiv: https://arxiv.org/pdf/2312.00785v1
- 项目主页: https://yutongbai.com/lvm.html
核心贡献：
- 提出 “视觉句子”（Visual Sentences）概念，将图像、视频、语义分割、深度图等多种视觉数据统一表示为离散 token 序列。
- 在包含 420B tokens 的 UVDv1 数据集上训练了 3B 参数的 Transformer 模型，证明了纯视觉模型的可扩展性。
- 通过提示工程（Prompt Engineering），在测试时实现了图像描述、目标检测、文生图、视频生成等多种任务。

1.3 跨模态大模型

1.3.1 音频驱动视觉生成（数字人 / 肖像动画）

1. SadTalker（西安交大、腾讯，CVPR 2023）

核心能力：单张图片 + 音频 → 生成风格化、逼真的 3D 说话人脸动画。
论文：SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
- arXiv: https://arxiv.org/abs/2211.12194
代码：https://github.com/OpenTalker/SadTalker
核心创新：
- 提出 ExpNet 和 PoseVAE，从音频中学习 3DMM 运动系数（表情 + 姿态）。
- 设计 3D 感知渲染器，生成自然的头部运动和唇形同步。

2. Real3D-Portrait（浙大、字节，ICLR 2024 Spotlight）

核心能力：单张图片 + 音频 → 生成逼真的 3D 半身说话人像，支持躯干运动和背景切换。
论文：Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
- arXiv: https://arxiv.org/abs/2401.08503
代码：https://github.com/yerfor/Real3DPortrait
核心创新：
- 用大图像到平面模型蒸馏 3D 先验，提升单图 3D 重建能力。
- 设计头部 - 躯干 - 背景超分辨率模型，生成更完整的半身动画。

3. AniPortrait（腾讯游戏）

核心能力：音频驱动生成逼真的肖像动画，支持面部表情和头部姿态的自然变化。
论文：AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
- arXiv: https://arxiv.org/abs/2403.17694
代码：https://github.com/Zejun-Yang/AniPortrait
核心创新：
- 分两步：Audio2Lmk（音频→面部关键点）+ Lmk2Video（关键点→视频）。
- 结合扩散模型和运动模块，保证时间一致性和视觉真实感。

4. EchoMimic（蚂蚁）

核心能力：音频驱动生成逼真的肖像动画，支持可编辑的地标条件控制。
论文：EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditioning
- arXiv: https://arxiv.org/abs/2407.08136
代码：https://github.com/BadToBest/EchoMimic
核心创新：
- 支持音频和地标条件的组合输入，实现更精细的动画控制。
- 后续升级的 EchoMimicV2/V3 支持半身人体动画和多任务统一建模。

5. LivePortrait（快手、中科大、复旦）

核心能力：视频驱动肖像动画，将表情和姿态迁移到目标人像，速度快（RTX 4090 上 12.8ms / 帧）。
论文：LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
- arXiv: https://arxiv.org/abs/2407.03168
代码：https://github.com/KwaiVGI/LivePortrait
核心创新：
- 基于隐式关键点的高效框架，平衡速度和质量。
- 设计拼接和重定向模块，提升动画可控性。

6. Audio2Photoreal（Facebook Research，CVPR 2024）

核心能力：音频驱动生成逼真的 Codec Avatar，包括面部表情和全身动作。
论文：From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
- arXiv: https://arxiv.org/abs/2401.01885
代码：https://github.com/facebookresearch/audio2photoreal
核心创新：
- 包含面部扩散模型、姿态扩散模型等四个核心模块，从音频生成全身 3D 化身。

1.3.2 视听语音识别和音源分离

一、视听语音识别 (AVSR)

1. 核心论文（附可访问链接）

论文标题	发表会议 / 年份	论文链接	核心亮点
Lip Reading in the Wild	CVPR 2016	arXiv	首个大规模唇语数据集 LRW，经典唇语识别基线
AV-HuBERT: Audio-Visual Hidden-Unit BERT for Speech Recognition	NeurIPS 2021	arXiv	跨模态预训练 AVSR 模型，工业界强基线
Audio-Visual Speech Recognition with Self-Supervised Pre-Training	ICASSP 2022	arXiv	自监督预训练提升小样本 AVSR 性能
End-to-End Audio-Visual Speech Recognition with Conformers	ICASSP 2023	arXiv	基于 Conformer 的端到端 AVSR，性能领先

2. 代码仓库地址（可直接克隆 / 使用）

项目名称	代码地址	适用场景
LRW 唇语识别基线	GitHub	基于 TCN/CNN+LSTM 的唇语识别，适配 LRW 数据集
AV-HuBERT 官方实现	GitHub	元宇宙开源，支持音频 - 视频联合预训练与推理
AVSR 入门级实现	GitHub	轻量级 AVSR 基线，融合 MFCC 音频特征 + 唇语视觉特征
跨模态语音识别工具包	GitHub	包含 AVSR 模块，支持多模态语音识别 / 验证

二、音源分离 (Audio Source Separation)

1. 核心论文（附可访问链接）

论文标题	发表会议 / 年份	论文链接	核心亮点
Conv-TasNet: Surpassing Ideal Time-Frequency Masking for Speech Separation	ICASSP 2018	arXiv	时域语音分离里程碑，替代传统时频掩码方法
SepFormer: Attention Is All You Need for Speech Separation	ICASSP 2021	arXiv	基于 Transformer 的 SOTA 语音分离模型
Open-Unmix: A Universal Music Source Separation Model	ISMIR 2019	arXiv	通用音乐分离，支持人声 / 鼓 / 贝斯 / 其他乐器
DPRNN: Dual-Path RNN for Context-Aware Speech Separation	ICASSP 2020	arXiv	双路径 RNN 捕捉局部 + 全局上下文，提升分离效果

2. 代码仓库地址（可直接克隆 / 使用）

项目名称	代码地址	适用场景
Open-Unmix 官方库	GitHub	音乐源分离入门首选，支持一键分离 / 训练
SepFormer 官方实现	GitHub	语音分离 SOTA，支持单 / 多说话人分离
Conv-TasNet 开源实现	GitHub	原版 Conv-TasNet 复现，适配 WSJ0-2mix 数据集
音源分离工具包 asteroid	GitHub	集成 Conv-TasNet/SepFormer/DPRNN 等，一站式开发
MUSDB18 分离基线	GitHub	适配 MUSDB18 音乐数据集，含多种分离模型

三、补充说明

论文链接优先使用 arXiv（无需权限），部分顶会论文可通过 Semantic Scholar（https://semanticscholar.org/）免费下载 PDF；
代码仓库均为维护状态良好的开源项目，克隆后可参考项目 README 完成环境配置（核心依赖：PyTorch、torchaudio）；
数据集下载：

LRW（唇语）：https://www.robots.ox.ac.uk/~vgg/data/lip_reading/
WSJ0-2mix（语音分离）：https://github.com/JorisCos/Conv-TasNet/blob/master/data/create_wsj0_2mix.sh
MUSDB18（音乐分离）：https://sigsep.github.io/datasets/musdb.html

总结

视听语音识别：优先从 LRW 唇语识别仓库入门，进阶使用 AV-HuBERT 官方库；
音源分离：新手用 Open-Unmix 体验音乐分离，进阶学习 SepFormer/Conv-TasNet（可基于 asteroid 工具包快速开发）；
所有链接均为当前主流开源资源，可直接克隆运行，建议先阅读项目 README 配置环境，再结合对应论文理解核心逻辑。

1.3.3 TTS（文本转语音）

TTS 核心是将文本转化为自然语音，以下覆盖从通用 TTS 到个性化、情感化、多语言 TTS 的主流模型：

1. 经典预训练模型（基础款、易微调）

模型名称	核心特点	论文（含 arXiv 链接）	代码仓库
Tacotron 2（Google）	端到端 TTS 里程碑，结合编码器 - 解码器 + 声码器，生成自然语音	Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram PredictionsarXiv: https://arxiv.org/abs/1712.05884	https://github.com/NVIDIA/tacotron2
VITS（腾讯 / 南洋理工）	生成式对抗 + 扩散模型，零样本音色转换，语音自然度高	Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-SpeecharXiv: https://arxiv.org/abs/2106.06103	https://github.com/jaywalnut310/vits
FastSpeech 2（微软）	非自回归 TTS，生成速度快（实时率 > 10），支持韵律控制	FastSpeech 2: Fast and High-Quality End-to-End Text-to-SpeecharXiv: https://arxiv.org/abs/2006.04558	https://github.com/ming024/FastSpeech2

2. 前沿大模型（个性化、多语言、情感化）

模型名称	核心特点	论文（含 arXiv 链接）	代码仓库
GPT-SoVITS	少样本音色克隆（仅需 5 秒音频），支持中 / 日 / 英跨语言合成	无正式论文（社区开源里程碑）	https://github.com/RVC-Boss/GPT-SoVITS
ChatTTS	对话式 TTS，支持情感、停顿、语调控制，适合聊天场景	无正式论文（社区开源）	https://github.com/2noise/ChatTTS
Vall-E（微软）	神经声码器 + 自回归模型，零样本音色克隆，语音相似度极高	Neural Codec Language Models are Zero-Shot Text to Speech SynthesizersarXiv: https://arxiv.org/abs/2301.02111	官方未开源（第三方复现：https://github.com/Plachtaa/VALL-E-X）
SoundStorm（Google）	高效非自回归 TTS，支持长音频生成，适配大模型场景	SoundStorm: Efficient Parallel Audio GenerationarXiv: https://arxiv.org/abs/2305.09636	https://github.com/google-research/soundstorm
UniVoice（多模态）	统一 ASR+TTS 的大模型，支持语音识别 - 合成闭环	UniVoice: Unified Speech Processing with Large-Scale Self-Supervised LearningarXiv: https://arxiv.org/abs/2510.04593v2	https://github.com/netease-youdao/UniVoice

3.文本生成音乐 / 音效模型

模型名称	研发方	核心特点	论文（含 arXiv 链接）	代码仓库
AudioCraft	MetaAI	含 MusicGen（音乐生成）、AudioGen（音效生成）、EnCodec（编解码），文本生成高质量音频	Simple and Controllable Music Generation（NeurIPS 2023）项目页：https://ai.meta.com/research/ai-audio/audiocraft/	https://github.com/facebookresearch/audiocraft
Stable-audio-open-1.0	StabilityAI	文本生成音频，支持 44.1kHz 立体声，最长 47 秒，基于潜在扩散模型，可商用	Stable Audio OpenarXiv: https://arxiv.org/abs/2407.14358

3. 中文专用 TTS 模型（适配中文韵律 / 音色）

PaddleSpeech（百度）：集成 FastSpeech 2、VITS、Tacotron 2 等，支持中文多音色合成代码：https://github.com/PaddlePaddle/PaddleSpeech文档：https://paddlespeech.readthedocs.io/
Bert-VITS2：结合 BERT 语义理解的中文 TTS，情感表达更丰富代码：https://github.com/Stardust-minus/Bert-VITS2

1.3.4 ASR（自动语音识别）

ASR 核心是将音频信号转化为文本，以下是工业界 / 学术界最常用的模型，覆盖从通用场景到多语言、低资源语言的需求：

1. 经典预训练模型（轻量、易部署）

模型名称	核心特点	论文（含 arXiv 链接）	代码仓库
Wav2Vec 2.0（Facebook）	首个无监督语音预训练里程碑，单语 / 多语版本，适配低资源语言	wav2vec 2.0: A Framework for Self-Supervised Learning of Speech RepresentationsarXiv: https://arxiv.org/abs/2006.11477	https://github.com/facebookresearch/fairseq/tree/main/examples/wav2vec
HuBERT（Facebook）	基于聚类的自监督预训练，语音表示更鲁棒，ASR 准确率优于 Wav2Vec 2.0	HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden UnitsarXiv: https://arxiv.org/abs/2106.07447	https://github.com/facebookresearch/fairseq/tree/main/examples/hubert
Conformer（Google）	结合 Transformer+CNN 的 ASR 骨干网络，工业界主流（如 Whisper、阿里云通义听悟均基于此）	Conformer: Convolution-augmented Transformer for Speech RecognitionarXiv: https://arxiv.org/abs/2005.08100	https://github.com/sooftware/conformer

2. 前沿大模型（多语言、多任务、高准确率）

模型名称	核心特点	论文（含 arXiv 链接）	代码仓库
Whisper（OpenAI）	多语言（99 种语言）ASR 大模型，支持语音转文本、翻译、语言识别，零样本效果优异	Robust Speech Recognition via Large-Scale Weak SupervisionarXiv: https://arxiv.org/abs/2212.04356	https://github.com/openai/whisper
Paraformer（百度）	工业级高效 ASR 模型，实时性 + 准确率兼顾，中文场景最优之一	Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech RecognitionarXiv: https://arxiv.org/abs/2206.08317	https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/paraformer
MassiveASR（字节跳动）	千亿参数级多语言 ASR 大模型，覆盖 100 + 语言，低资源语言效果显著	MassiveASR: Scaling Up Speech Recognition with Over 100 Billion ParametersarXiv: https://arxiv.org/abs/2403.00779	暂未开源（提供 API：https://www.bytedance.com/en/tech/product/ai/speech/）
LLaMA-Omni（多模态）	融合 ASR+TTS + 视觉的多模态大模型，支持语音 - 文本 - 视觉跨模态交互	LLaMA-Omni: Unified Multimodal Large Language Model with Vision, Audio, and TextarXiv: https://arxiv.org/abs/2402.00856	https://github.com/ictnlp/LLaMA-Omni

3. 中文专用 ASR 模型（适配中文场景）

FunASR（阿里巴巴）：工业级中文 ASR 工具包，集成 Paraformer、Conformer 等模型，支持实时转写、方言识别代码：https://github.com/alibaba-damo-academy/FunASR论文：FunASR: A Fundamental End-to-End Speech Recognition Toolkit（无公开 arXiv，工具包自带技术文档）
WeNet（腾讯 / 清华）：开源端到端 ASR 框架，支持中文 / 英文，易二次开发代码：https://github.com/wenet-e2e/wenet论文：WeNet 2.0: More Productive End-to-End Speech Recognition ToolkitarXiv: https://arxiv.org/abs/2203.15455

1.4 多模态大模型

多模态模型处理流程，以 “utterance（话语）” 为例，输入包含视觉（visual）、音频（audio）和语言（language）三种模态信息。

输入模态
- 视觉：两帧人脸图像，捕捉表情、动作等视觉信息。
- 音频：一段语音波形，对应说话内容的声学信号。
- 语言：文本序列 “And I loved it”，是语音的文字转录。
多模态表示（Multimodal Representations）模型将不同模态的原始数据编码为向量表示，这些表示分为两类：
- 模态不变（Modality-invariant）：用蓝色三角形表示，是跨模态共享的语义信息，例如 “开心” 这个概念，无论从视觉（笑容）、音频（语调）还是文本（“loved”）中都能提取到。
- 模态特定（Modality-specific）：用橙色、绿色、紫色圆点表示，分别对应视觉、音频、语言模态特有的信息，例如视觉的人脸特征、音频的音色、文本的语法结构。
融合（Fusion）与预测（Prediction）提取到的多模态表示被送入融合模块，将不同模态的信息整合，最后由预测模块输出最终结果（如情感分类、意图识别等）。

多模态大语言模型的核心思想：它是由语言大模型（LLM）扩展而来，具备接收和推理多模态信息的能力。

1. 核心组件

语言大模型（LLM）：作为整个系统的 “大脑”，负责核心的推理和生成任务。
多模态输入：视觉、文本、音频等模态信息，通过适配器（Adapter）或编码器转换为 LLM 可以理解的嵌入（embedding），然后输入到 LLM 中。
输出：LLM 在融合了多模态信息后，进行推理并生成文本或其他形式的输出。

2. 定义 由 LLM 扩展而来的具有接收与推理多模态信息能力的模型。

2.图文多模态大模型

2.1 图文多模态大模型发展历程

2.2.1 图文多模态大模型

这套图片系统梳理了视觉 - 文本多模态模型的发展脉络，以四个关键里程碑为核心，从底层视觉表征、跨模态联合建模、大规模对齐，到最终文生图任务的爆发，完整呈现了技术从理论突破到产业落地的演进路径。结合图片内容，以下是分模块的详细解析，包含核心论文、技术原理及官方 / 主流代码地址：

里程碑 1：视觉表征的 Token 化革命（ViT 与掩码图像建模）

这一阶段解决了 **“如何用 Transformer 处理图像”** 的核心问题，将 NLP 的 Token 化思想迁移到视觉领域，奠定了多模态融合的基础。

1. Vision Transformer (ViT) —— 图像 Token 化的开山之作

核心贡献：首次证明纯 Transformer 架构可在图像识别任务中超越 CNN。将图像切分为固定大小的Patches（16×16），展平后作为 “视觉 Token”，通过线性投影映射到特征空间，结合类别嵌入（Class Embedding）和位置编码，送入 Transformer Encoder 完成分类。
论文信息：Dosovitskiy, Alexey, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020).
代码地址：
- 官方 JAX 实现：https://github.com/google-research/vision_transformer
- 主流 PyTorch 复刻（含多尺度变体）：https://github.com/lucidrains/vit-pytorch

2. Masked Image Modeling (MIM) —— 视觉无监督预训练的标准化

核心贡献：借鉴 NLP 的 BERT 掩码策略，提出 ** 掩码自编码器（MAE）** 等方案：随机掩码图像的部分 Patches，通过 Encoder 编码可见部分，再用 Decoder 重建掩码区域的像素 / 特征，实现高效的无监督视觉特征学习，大幅提升了 ViT 的泛化能力。
论文信息：He, Kaiming, et al. Masked autoencoders are scalable vision learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
代码地址：
- 官方 MAE 实现（PyTorch）：https://github.com/facebookresearch/mae
- 通用 MIM 框架（支持 MAE、BEiT 等）：https://github.com/microsoft/unilm

里程碑 2：基于 Transformer 的图像 - 文本联合建模（VisualBERT）

这一阶段突破了 **“视觉与文本特征如何融合”** 的瓶颈，实现了跨模态的统一表征，为后续对齐任务奠定了架构基础。

VisualBERT —— 视觉 - 语言融合的基础基线

核心贡献：在 BERT 架构上扩展，引入视觉 Token（由 Faster R-CNN 提取的图像区域特征），与文本 Token 拼接后送入 Transformer。通过双流注意力（文本 - 文本、文本 - 视觉）实现跨模态交互，支持视觉问答（VQA）、图像字幕等任务。
论文信息：Li, Liunian Harold, et al. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557 (2019).
代码地址：
- 官方 TensorFlow 实现：https://github.com/uclanlp/visualbert
- PyTorch 复刻（适配现代训练框架）：https://github.com/huggingface/transformers（支持 VisualBERT 预训练模型加载）

里程碑 3：大规模图 - 文 Token 对齐（CLIP 与 SigLIP）

这一阶段通过 **“对比学习 + 大规模图文数据”，实现了视觉与文本的全局语义对齐 **，彻底打破了 “有监督训练依赖人工标注” 的限制，是文生图爆发的核心前提。

1. CLIP (Contrastive Language-Image Pre-training) —— 图文对齐的里程碑

核心贡献：构建含 4 亿 + 图文对的数据集，采用对比预训练策略：同时训练图像编码器和文本编码器，使 “匹配的图文对” 在特征空间中距离更近，“不匹配的对” 距离更远。实现了零样本学习（Zero-Shot），可直接通过文本指令完成图像分类、检测等任务。
论文信息：Radford, Alec, et al. Learning transferable visual models from natural language supervision. International Conference on Machine Learning. PMLR, 2021.https://arxiv.org/abs/2103.00020
代码地址：
- 官方 OpenAI 实现（PyTorch）：https://github.com/openai/CLIP
- 轻量化推理 / 训练框架：https://github.com/lucidrains/CLIP-pytorch

2. SigLIP —— CLIP 的损失函数优化版

核心贡献：针对 CLIP 的 Softmax 对比损失在大规模批次下的效率问题，提出基于 Sigmoid 的成对损失。将 “全局对比” 改为 “逐样本成对判断”，无需计算批次内的全局归一化，训练更稳定、可扩展性更强，在大模型尺度下性能超越 CLIP。
论文信息：Zhai, Xiaohua, et al. SigLIP: Simple Image Text Matching with Sigmoid Loss. arXiv preprint arXiv:2303.15343 (2023). https://arxiv.org/abs/2303.15343
代码地址：
- 官方 Google 实现（JAX/Flax）：https://github.com/google-research/big_vision
- PyTorch 复刻版：https://github.com/kingoflolz/siglip-pytorch

3. 对齐模型的下游拓展（开域视觉任务）

基于 CLIP 的图文对齐能力，技术向更细粒度的视觉任务延伸：

开域图像分类：CLIP 直接通过文本标签实现零样本分类；
开域目标检测：GLIP（Grounded Language-Image Pre-training）将文本与图像区域精准匹配，实现 “文本指定目标” 的检测；
开域图像分割：MaskCLIP 在 GLIP 基础上，进一步实现像素级的文本匹配分割。
补充论文：
- GLIP：Li, Yuxin, et al. Grounded language-image pre-training. CVPR 2022.https://arxiv.org/abs/2112.03857
- MaskCLIP：Zhou, Chong, et al. Extract free dense labels from clip. ECCV 2022.https://arxiv.org/abs/2112.01037
- DERT: End-to-End Object Detection with Transformers. ECCV 2020https://arxiv.org/abs/2005.12872
- Mask2Former: Masked-attention Mask Transformer for Universal Image Segmentation.CVPR 2022 https://arxiv.org/abs/2112.01527
代码地址：
- GLIP 官方实现：https://github.com/microsoft/GLIP
- MaskCLIP 官方实现：https://github.com/chongzhou96/MaskCLIP
- DERT: https://github.com/facebookresearch/detr
- Mask2Former:https://github.com/facebookresearch/Mask2Former

Flamingo

Flamingo 是由 DeepMind 提出的一种视觉语言模型（VLM），其核心突破在于能够在不重新训练整个模型的情况下，通过少量的示例（Few-shot）学习来处理视觉和语言任务。

以下是详细信息：

📄 论文信息

论文标题: Flamingo: a Visual Language Model for Few-Shot Learning
ArXiv 地址: https://arxiv.org/abs/2204.14198
PDF 下载: https://arxiv.org/pdf/2204.14198.pdf
发表会议: NeurIPS 2022

💻 代码与模型权重

官方代码仓库 (GitHub): https://github.com/deepmind/flamingo
- 注意: DeepMind 开源了模型的推理代码和架构实现，但未公开预训练权重。你需要自己准备数据并按照论文描述进行训练，或者使用社区基于该架构复现的模型。
开源复现版本 (OpenFlamingo):
由于官方未开放权重，社区（主要是 LAION 和 Hugging Face 合作）推出了完全开源的复现版本 OpenFlamingo，提供了预训练权重。
- 项目主页: https://github.com/mlfoundations/open_flamingo
- Hugging Face 模型: 搜索 openflamingo (例如 openflamingo/OpenFlamingo-9B-vitl-mpt1b)

💡 核心简介与贡献

冻结的骨干网络 (Frozen Backbones):
Flamingo 的创新之处在于它冻结了两个强大的预训练模型：
- 一个预训练的语言模型（如 Chinchilla 或 MPT）。
- 一个预训练的视觉编码器（如 Perceiver Resampler 处理的 ViT）。
  它只训练插入在两者之间的轻量级“交叉注意力层”（Perceiver Resampler layers），这使得训练效率极高。
少样本学习 (Few-Shot Learning):
这是 Flamingo 最著名的能力。用户可以在输入中直接提供“图像 - 文本”对作为示例（Context），模型能够立即理解任务模式并对新的图像做出反应，而无需微调权重。
- 例子: 输入 [图A, "这是一只猫"], [图B, "这是一只狗"], [图C, ?] -> 模型输出 "这是一只鸟"。
任意数量的视觉输入:
模型可以处理单张图像、多张图像甚至视频帧序列，并将其作为上下文令牌插入到语言模型的序列中。
局限性:
由于官方权重未公开，直接使用原版 Flamingo 需要巨大的计算资源进行从头训练。因此，目前研究和应用中更多使用的是 OpenFlamingo 或其他受其启发的架构（如 LLaVA 系列虽然架构不同，但也吸收了其多模态融合的思想）。

总结: Flamingo 证明了通过巧妙地连接预训练的视觉和语言模型，可以实现强大的少样本多模态推理能力，是多模态大模型发展史上的里程碑之作。

CLIP 提供的 “文本 - 视觉语义映射”，结合扩散模型、GAN 等生成架构，催生了一批顶尖文生图模型，形成了 2021-2023 年的技术井喷。

时间	模型 / 技术	机构	核心特点
2021.01	DALL-E	OpenAI	结合 CLIP 的图文对齐，首次实现高质量文生图（基于 Transformer）
2021.05	CogView	清华大学	中文文生图先驱，基于 Transformer 的自回归生成
2021.11	NUWA	微软	支持视频 + 图像的多模态生成
2022.04	DALL-E 2	OpenAI	采用 “CLIP 对齐 + 扩散模型”，大幅提升图像分辨率和语义一致性
2022.05	Imagen	Google	基于扩散模型，通过大语言模型优化文本理解，生成质量领先
2022.08	Stable Diffusion (SD)	Stability AI	开源扩散模型，结合 CLIP 文本编码器，成为产业级文生图基础工具
2023.03	Midjourney V5	Midjourney	闭源商业模型，极致的视觉效果和艺术表现力

核心生成技术代码地址

Stable Diffusion（最主流）：https://github.com/Stability-AI/stablediffusion
DALL-E 2（官方开源组件）：https://github.com/openai/DALL-E
Imagen（Google 研究版）：https://github.com/google-research/imagen
CogView（中文文生图）：https://github.com/THUDM/CogView

里程碑 4：多模态大语言模型的出现

GPT-4v

GPT-4V 代表了多模态大语言模型的重要里程碑，它将强大的语言理解能力与先进的视觉感知能力深度融合，能够处理从简单的图像描述到复杂的逻辑推理、时序分析等多样化任务，展现了通用人工智能在多模态交互方面的巨大潜力。

1. 图 - 文交替输出能力

输入：可同时接收文本和图像信息，支持多张图像的序列输入。
输出：以自然语言文本形式回答问题。
示例：
- 分析多张购物小票，计算总税额。
- 结合菜单图片和餐桌图片，计算啤酒总价。
- 不直接支持视频输入，但可通过多帧图像序列理解时序信息。

2. 理解视觉指向和参考

能够识别图像中的指向（如黄线、红框），并对被指向的区域进行详细描述。
示例：
- 描述图片中黄线指向的一排装饰灯。
- 解读表格中红框高亮的数值（如 122.3）及其含义。
- 结合几何图形，应用勾股定理和三角函数进行推理计算。

3. 支持视觉 + 文本联合提示

可以同时处理图像和文本指令，进行逻辑推理。
示例：
- 观察第一列图形的变化规律（如添加一条线、在中心加一个点），推断第二列的缺失图形。
- 解决矩阵式的视觉推理题，从选项中选择符合逻辑的答案。

4. 少样本上下文学习（In-context Few-shot）

仅需少量示例，就能快速学习并应用新的视觉任务。
示例：
- 通过两个示例学习如何读取汽车速度表，然后准确判断第三张图的速度。

5. 强大的视觉认知能力

覆盖了广泛的视觉理解场景：
- 识人：识别图中人物（如 NVIDIA CEO Jensen Huang）及其行为。
- 识地：识别地标（如旧金山九曲花街）并描述其背景。
- 识菜：识别菜品（如麻婆豆腐）并介绍其特点。
- Logo 识别：识别并描述品牌标志（如 Nike Air Force 1）。
- 医疗图像：描述医学影像（如牙科 X 光片）的细节。
- 通用场景分析：分析道路场景，识别车辆、交通标志和天气。
- 文字识别：提取图像中的手写或印刷文字（如黑板上的夏日信息）。
- 图表文档理解：分析复杂图表（如食物网），识别生产者等关键信息。
- 计数：准确统计图像中物体的数量（如 16 个苹果）。
- 目标定位：检测并定位图像中的物体，输出其边界框坐标和图像尺寸。

6. 时序视觉信号理解

通过多帧图像序列，理解事件的发展过程。
示例：
- 分析足球比赛的连续帧，判断球员在第 c 帧踢球，且球在第 f 帧入网，守门员未能成功扑救。

Google Gemini

Gemini 是 Google DeepMind 提出的原生多模态大语言模型，与 “伪多模态”（如 GPT-4v，通过拼接独立模块实现）不同，它从底层架构上就统一处理多种模态。

核心能力
- 输入：支持文本、语音、图像、视频等多模态信息输入。
- 输出：可生成自然语言文本和图像。
- 架构：通过统一的 Transformer 架构，将不同模态的输入编码为统一的序列表示，再进行深度推理。
关键特性

多模态内容输出：

能够根据文本指令，同时生成连贯的自然语言描述和对应的图像。例如，根据 “写一篇关于纽约旅行的博客，并包含狗狗在不同地标前的照片” 的指令，生成一篇博客文章和三张相关图片。

复杂图像理解与代码生成：

可以理解复杂的图表和数学函数，并根据视觉信息生成可执行的代码。例如，分析图表中的函数曲线，生成对应的 matplotlib 代码来复现或修改图表。

相关论文与资源
- Gemini: A Family of Highly Capable Multimodal Models (Google DeepMind, 2023)
  - 论文地址：https://arxiv.org/abs/2312.11805
- 官方资源：
  - Google Gemini 官网：https://deepmind.google/technologies/gemini/
  - Google AI Studio：https://aistudio.google.com/

Anthropic Claude 3

Claude 3 是 Anthropic 推出的新一代多模态模型，专注于强大的图像理解和文本生成能力。

核心能力
- 输入：支持文本和图像信息输入，不支持视频，但可以处理多张图像的序列输入。
- 输出：生成自然语言文本。
- 特点：在复杂推理、长上下文处理和视觉理解方面表现出色，尤其擅长解读文档、图表和科学图像。
相关论文与资源
- Claude 3 Model Card (Anthropic, 2024)
  - 官方介绍：https://www.anthropic.com/news/claude-3-family
- API 与开发资源：
  - Anthropic 开发者平台：https://www.anthropic.com/developers

OpenAI GPT-4o (Omni)

GPT-4o (Omni) 是 OpenAI 最新的旗舰多模态模型，代表了当前多模态技术的前沿。

核心能力
- 输入：全面支持文本、语音、图像和视频信息输入。
- 输出：可生成自然语言、语音、图像，视频输出功能尚未开放。
- 定位：旨在实现 “全模态” 的智能交互，将各种模态的输入与输出深度整合。
相关论文与资源
- GPT-4o Technical Report (OpenAI, 2024)
  - 官方博客：https://openai.com/index/hello-gpt-4o/
- API 与开发资源：
  - OpenAI 开发者平台：https://platform.openai.com/docs/guides/vision

2.1.2 多模态大语言模型的应用

工业

医疗

视觉内容认知与编辑

具身智能

新一代人机交互

2.2 图文对话系统的搭建

2.2.1 LLaVa 图文对话系统搭建

模型架构与推理流程

两阶段训练策略

LLaVA 采用分阶段训练，保证视觉 - 语言对齐的同时高效利用算力：

阶段一：特征对齐预训练
- 目标：让视觉特征和语言特征在同一空间对齐。
- 冻结：视觉编码器（CLIP）和语言模型（LLM）参数固定。
- 更新：仅训练特征映射矩阵 W（2 层全连接层）。
- 数据：使用图 - 文对齐数据（558K 条），来源包括 LAION、Conceptual Captions 等，形式为 “图像 + 简短描述”。
- 超参（LLaVA-v1.5-13B）：全局 batch size=256，学习率 = 1e-3，1 epoch，输入图像分辨率 336px，8×A100 耗时约 5.5 小时。
阶段二：端到端微调
- 目标：让模型学会理解复杂指令并生成对话式回答。
- 更新：同时训练特征映射矩阵 W 和语言模型 LLM。
- 数据：使用图 - 文指令数据（665K 条），来源包括 COCO、GQA、OCR-VQA 等，形式为 “图像 + 多轮对话 / 复杂指令”。
- 超参（LLaVA-v1.5-13B）：全局 batch size=128，学习率 = 2e-5，1 epoch，输入图像分辨率 336px，8×A100 耗时约 20 小时。

数据准备：两类核心数据集

LLaVA 的训练数据分为两类，分别服务于不同阶段：

数据集类型	数据规模	数据来源	数据形式	训练阶段
图 - 文对齐数据	558K 条	LAION、Conceptual Captions、SBU Captions	图像 + 简短文本描述（如 “这是一个柿子”）	阶段一（预训练）
图 - 文指令数据	665K 条	COCO、GQA、OCR-VQA、TextVQA、VG_100K	图像 + 多轮对话 / 复杂指令（如 “图中公交车是什么颜色？”）	阶段二（微调）

数据增强：指令数据通过 GPT-4 生成，包含图像精细描述、对话、复杂推理三种响应类型，覆盖从基础描述到逻辑问答的全场景。

模型部署：分布式服务架构

LLaVA 采用分布式部署，支持多模型并行和 WebUI 交互：

Controller (API Server)：核心调度节点，端口 10000，负责管理多个 Model Worker。
Model Worker：模型执行节点，加载具体模型（如 llava-v1.5-7b/13b），端口 40000/40001 等。
Gradio (UI Server)：前端交互界面，用户通过浏览器发送请求，由 Controller 分发到 Worker 处理。

启动命令：

# 1. 启动 Controller
python -m llava.serve.controller --host 0.0.0.0 --port 10000
# 2. 启动 Model Worker
python -m llava.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --model-path liuhaotian/llava-v1.5-13b
# 3. 启动 WebUI
python -m llava.serve.gradio_web_server --controller http://localhost:10000

2.2.2 图文多模态大语言模型的评测

全维度评测全景：各类 Benchmark 综合测试

这张图构建了图文多模态模型的完整评测地图，涵盖了从基础到高阶、从单任务到多任务的全场景基准测试（Benchmark），并通过雷达图展示了主流模型的综合性能。

1. 全任务分类体系

按任务类型分为 9 大核心板块，覆盖图文理解的全链路：

任务板块	代表基准测试	核心任务
图像描述（Image Captioning）	COCO Caption、Flickr30K	生成图片的精准文本描述
视觉推理（Visual Reasoning）	GQA、IconQA	基于视觉的逻辑推理、空间推理
视觉对话 QA（Visual Conversational QA）	Visual Dialog	多轮图文对话中的问题解答
视频问答（Video Question Answering）	MSVD QA、iVQA	理解视频内容并回答问题
知识落地图文 QA（Knowledge Grounded Image QA）	OKVQA、ScienceQA	结合外部知识解答图片问题（如科学常识）
图像问答生成（Image Question Generation）	VQAv2	根据图片生成合理的问答对
图文问答阅读理解（Image QA Reading Comprehension）	OCR-VQA、TextVQA	结合 OCR 识别的文字完成阅读理解式问答
图像分类（Image Classification）	HatefulMemes	针对特定场景的图像分类（如识别恶意梗图）
定制化指令集	LLaVA-Instruct-150K	基于指令微调的多模态能力测试

2. 模型综合性能雷达图

右侧雷达图以SEED、MME_per、MME_cog、MMBench-CN等核心指标为维度，对比了ShareGPT4V-7B、LLaVA-1.5-7B、Qwen-VL-Chat-7B、InstructBLIP-7B四款主流 7B 量级模型：

优势分布：Qwen-VL-Chat-7B 在多个指标上表现均衡，LLaVA-1.5-7B 在部分推理指标上突出。
核心价值：直观展示模型的 “能力短板”，为科研调优和工业选型提供依据。

核心总结

这组图片完整呈现了图文多模态大语言模型的评测进化路径：

从基础到高阶：MME 测基础感知与认知，MMMU/MathVista 测专业跨学科能力；
从单一到全面：从 Yes/No 问答，扩展到图像描述、视频理解、代码推理、专业知识问答等全任务；
从榜单到选型：通过开源模型排名和雷达图，为科研人员（模型调优）、工程师（工业落地）提供了明确的性能参考。

核心基础评测：MME 评测集

MME（MultiModal Evaluation）是图文多模态模型的基础能力标杆，核心聚焦「感知（Perception）」与「认知（Cognition）」两大维度，通过 Yes/No 问答的形式量化模型性能，图片中给出了其任务分类、样例及开源地址。

1. 评测集核心信息

开源地址：github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation，是业内整理 MLLM 评测资源的核心仓库。
评测范式：以「图片 + 是非问句」为核心，要求模型精准判断，避免模糊回答，适合量化对比。

2. 两大核心能力维度（任务细分与样例）

能力维度	子任务类型	核心考察点	典型样例
感知（Perception）	粗粒度感知（Coarse-Grained）	基础视觉元素识别（存在性、数量、位置、颜色）	「图中有大象吗？」「摩托车在公交车的右侧吗？」
	细粒度感知（Fine-Grained）	专业领域细分类别识别（海报、名人、场景、地标、艺术品）	「这部电影是弗朗西斯・福特・科波拉执导的吗？」「这是北京的故宫吗？」
	OCR 任务	图文转换与文字精准识别	「图片中的电话号码是 0131 553 6363 吗？」「Logo 里的文字是 high time cofee shop 吗？」
认知（Cognition）	常识推理	结合视觉与生活常识做决策	「看到图片中的标志，我应该过马路吗？」
	数值计算	视觉中的数学运算与逻辑	「图片中的算术题答案是 5 吗？」
	文本翻译	跨模态的语言转换能力	「将‘老味道’翻译成英文‘classic taste’是否合适？」
	代码推理	视觉中的代码逻辑判断	「Python 代码`print('Hello')`的输出是 Hello 吗？」

高阶专业评测集：MMMU、MMVet、MathVista

如果说 MME 是 “基础体检”，这三个评测集就是 **“专业难度考核”，聚焦高复杂度、跨学科 ** 的图文理解任务，突破了基础是非题的局限。

评测集	核心领域	典型任务样例	考察难点
MMMU	医学、金融、法律等专业领域	医学：识别左腿 MRI 影像中的 170 号结构（选项为肌肉 / 肌腱名称）；金融：根据财务报表计算公司缺失的收入 / 支出数据	跨学科专业知识 + 视觉细节理解 + 数值推理
MathVista	数学视觉推理	几何题：已知平行四边形 ABCD 中 AB=AC，∠CAB=40°，求∠D 的度数	抽象几何图形理解 + 数学定理应用
MMVet	通用高阶视觉推理	（图中未展示具体样例，核心为复杂场景的多步推理、知识融合）	多模态知识的深度结合与逻辑链推理

开源模型性能排名：MME 实测榜单

这张图是基于 MME 评测集的开源多模态大语言模型排行榜，从「认知得分」和「感知任务得分」两个核心指标，展示了主流模型的性能梯队，核心结论如下：

1. 双指标排名逻辑

认知得分榜：聚焦推理、计算、翻译等高阶能力，Qwen-VL-Max以 643.57 分位居榜首，远超第二名 InternVL-Chat-V1.5（550.00 分），体现了其在复杂认知任务上的绝对优势。
感知任务得分榜：侧重视觉识别、OCR 等基础能力，Qwen-VL-Max仍以 1790.04 分领跑，ChatTruth-7B、InternLM-XComposer2-VL 紧随其后。

2. 核心梯队划分

第一梯队：Qwen（通义千问）、InternVL（书生）系列模型霸榜，体现了国内开源模型的顶尖实力。
第二梯队：PureMM、Vicuna 系列、LLaVA 系列（如 LLaVA-1.6、LLaMA3-70B），是科研与工业界常用的基础模型。
特色模型：CogAgent（前文提到的 GUI 智能体）也在榜单中，虽排名靠后（1497.67 分），但侧重 GUI 交互，并非纯图文评测的强项，体现了模型的任务针对性。

2.2.3 LLaVa衍生与改进

围绕多模态大模型（以 LLaVA 系列为核心）的衍生与改进展开，系统梳理了 ** 视觉编码器（Vision Encoder）与投影机制（Projection Mechanism）** 两大核心方向的技术演进，涵盖具体模型架构、改进策略、应用场景及配套工程实现。以下是分模块详细解析：

LLaVA 衍生与改进总览

LLaVA（Large Language and Vision Assistant）是开源多模态大模型的标杆，其衍生方向主要聚焦医疗辅助（AI 就诊）、视觉导盲（AI 导盲）、视频理解等垂直场景，同时通过迭代模型架构提升通用能力。

AI 导盲：提及LLaVAVision，是基于llama.cpp/llava后端构建的 “Be My Eyes” 类 Web 应用，核心是实现视觉障碍辅助的实时视觉语言交互。
AI 就诊（LLaVA-Med）：
- 定位：面向生物医药的多模态大模型，专注医疗视觉问答（VQA）、医疗影像对话等场景。
- 训练流程：分两阶段 ——Stage 1（7 小时）：医疗概念对齐（1 epoch on 600K 样本）；Stage 2（8 小时）：医疗指令微调（3 epochs on 60K 样本）。
- 下游任务：Medical Visual Chat、Medical VQA（含 VQA-Radiology、SLAKE、Pathology-VQA 等细分任务）。
视频相关：提及PKU-YuanGroup/Video-LLaVA，是北大团队推出的视频 - 语言大模型，支持视频描述、视频 VQA、视频时序推理等。

核心技术改进 1：Vision Encoder（视觉编码器）演进

这是幻灯片重点章节，核心是提升视觉特征提取的精度、分辨率适配性与推理效率，覆盖 LLaVA1.6、Fuyu-8B、MiniCPM 系列等模型：

1. LLaVA1.6（LLaVA-Next）

核心改进目标：突破视觉感知瓶颈，强化细节捕捉与推理能力。

高分辨率支持：将输入图像分辨率提升至多档位，支持672×672、336×1344、1344×336三种宽高比，能捕获更多视觉细节（如小目标、文字纹理）。
数据与能力：通过改进的视觉指令微调数据混合，提升视觉推理与 **OCR（光学字符识别）** 能力；适配更多场景（医疗、工业、办公文档等）的视觉对话；增强世界知识与逻辑推理能力，且通过 SGLang 实现高效部署与推理。
编码逻辑：采用 “分块（split）+ 整图（resize）” 双路径编码：分块捕捉局部细节、整图捕捉全局上下文，最终展平（flatten）后输入大语言模型（LLM）。

2. Fuyu-8B

架构创新：端到端 Transformer Decode 架构，简化视觉 - 语言融合流程。

编码流程：输入图像先切分为图像块（Image patch），经线性投影（Linear projection）映射为向量，直接接入 Transformer Decode，与文本 Token（This is a Fuyu persimmon...）统一建模。
特点：8B 参数规模，轻量化且支持高分辨率图像理解，适合边缘 / 终端部署。

3. MiniCPM-Llama3-V 2.5

技术亮点：兼顾高性能与工程效率，适配终端设备。

视觉编码：借鉴 LLaVA1.6 的 “分块 + 整图” 组合编码方式；用SigLip（siglip-so400m-14-980-flash-attn2-navit）替代传统 CLIP 作为视觉编码器，提升高分辨率特征提取能力；引入 q-former 技术，支持任意分辨率图像映射到固定长度视觉编码。
工程优化：通过模型量化、CPU/NPU 推理、编译优化等加速技术，实现高效终端部署。
性能验证：在 OCRBench、DocVQA、LLaVA Bench、Math-Vista 等多模态基准测试中表现优异（雷达图展示 SOTA 级性能）。

4. MiniCPM-V 2.6（Qwen2-7B）

轻量化与部署优化：面向端侧与高效微调的多模态模型。

核心配置：以Qwen2-7B作为大语言模型（LLM），搭配 SigLip-400M 视觉编码器，总参数规模 8B，实现 “20B 以下模型” 的单图 / 多图 / 视频理解 SOTA 性能。
部署与微调：
- 支持端侧部署（可在 iPad 运行实时视频理解）；
- 微调方案：支持 SWIFT 框架（ModelScope 开源），涵盖 LoRA 微调、全参数微调，且支持多图 / 视频微调训练；
- 显存效率（以 A800 80GB、DeepSpeed ZERO-3、bs=1 为例）：LoRA 微调仅需 13.1-14.4GiB 显存，全参数微调 15.63-16.0GiB 显存，适配中小规模算力环境。

核心技术改进 2：Projection Mechanism（投影机制）优化

投影层是连接视觉特征与语言模型的 “桥梁”，核心解决视觉 - 语言特征对齐精度、维度匹配、训练效率问题，以InternLM-XComposer系列为代表：

1. InternLM-XComposer2

投影设计：双投影矩阵优化特征对齐

引入可学习投影矩阵WB∈RCout×Cr、WA∈RCr×Cin，结合预训练权重W0∈RCout×Cin，对视觉特征进行维度变换与特征蒸馏，实现视觉特征到语言模型嵌入空间的精准对齐。
优势：提升跨模态特征融合的稳定性，减少训练过程中的模态错位问题。

2. InternLM-XComposer2.5

场景突破：聚焦截图转代码（Screenshot-to-Code）、4K 分辨率图像理解等复杂场景。

核心能力：
- 截图转代码：输入 UI 截图，自动生成可渲染的代码（Generate Code and Render），适配前端开发、低代码自动化场景；
- 4K 图像理解：支持 4K 超高清图像的细节分析（如复杂信息图表、长文档截图），通过优化的投影与编码机制，实现高分辨率图像的精准解读与问答。

LLaVa 相关论文与代码 / 工程资源

提及的开源项目、技术论文与工程工具对应如下：

模型 / 技术	代码 / 论文 / 工具链接 / 标识	核心价值
LLaVAVision	无直接链接（基于 llama.cpp/llava）	开源视觉导盲类 LLaVA 衍生应用
LLaVA-Med	microsoft/LLaVA-Med（GitHub）	医疗多模态大模型，开源代码与权重
Video-LLaVA	PKU-YuanGroup/Video-LLaVA（GitHub）	北大开源视频 - 语言大模型
LLaVA1.6/LLaVA-Next	haotian-liu/LLaVA（GitHub，对应 1.6 分支）	LLaVA 官方开源仓库，含训练 / 推理代码
MiniCPM 系列	OpenBMB/MiniCPM（GitHub）、ModelScope	智谱 / 百川智能开源，含 MiniCPM-V 2.5/2.6
SWIFT 框架	modelscope/swift（GitHub）	阿里开源大模型微调框架，支持 MiniCPM-V 微调
SigLIP	google-research/big_vision（GitHub）	Google 开源 SigLip 视觉模型，替代 CLIP
SGLang	SGLang-Project/sglang（GitHub）	高效大语言模型推理框架，LLaVA1.6 用其加速
InternLM-XComposer	InternLM/XComposer2（GitHub，上海 AI 实验室）	商汤 / 港中文开源多模态模型

LLaVA 核心衍生应用（垂直场景）

1. LLaVAVision（AI 导盲）

核心依托：基于 llama.cpp/llava 后端开发，无独立官方仓库
基础代码：llama.cpp（视觉推理后端）+ LLaVA 官方仓库（多模态能力）
- llama.cpp：https://github.com/ggerganov/llama.cpp
- LLaVA 基础：https://github.com/haotian-liu/LLaVA

2. LLaVA-Med（AI 就诊 / 医疗多模态）

官方代码仓库：https://github.com/microsoft/LLaVA-Med
核心论文：LLaVA-Med: A Large Language and Vision Assistant for Biomedicine（无公开 arxiv 链接，仓库含技术报告）
关键特性：仓库含医疗概念对齐、指令微调全流程代码，及医疗 VQA 数据集适配脚本

3. Video-LLaVA（视频 - 语言理解，北大团队）

官方代码仓库：https://github.com/PKU-YuanGroup/Video-LLaVA
核心论文：Video-LLaVA: Learning United Visual Representation by Alignment for Video-Language Understanding（arxiv：https://arxiv.org/abs/2404.10157）
关键特性：支持视频描述、时序推理、视频 VQA，基于 LLaVA 拓展视频帧编码能力

视觉编码器（Vision Encoder）演进核心模型

1. LLaVA1.6/LLaVA-Next（LLaVA 核心迭代版）

官方代码仓库：https://github.com/haotian-liu/LLaVA（1.6 分支，主仓默认最新版）
核心论文：LLaVA-Next: Improved Multimodal Understanding with High-Resolution Vision and Enhanced World Knowledge（arxiv：https://arxiv.org/abs/2407.01449）
补充：仓库含高分辨率双路径编码（分块 + 整图）实现、SGLang 推理加速适配代码

2. Fuyu-8B（端到端 Transformer Decode 架构）

官方代码仓库：https://github.com/adept/fuyu-8b
核心论文：Fuyu-8B: A Small Single-Token Vision-Language Model（arxiv：https://arxiv.org/abs/2310.06825）
关键特性：轻量级 8B 模型，端到端视觉 - 文本统一建模，仓库含高分辨率图像块编码实现

3. MiniCPM 系列（MiniCPM-Llama3-V 2.5 / MiniCPM-V 2.6）

官方代码仓库：https://github.com/OpenBMB/MiniCPM
ModelScope 开源地址：https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-2.6/summary（含预训练权重、端侧部署教程）
核心论文：MiniCPM-V: A Compact and Efficient Vision-Language Model for Edge Devices（arxiv：https://arxiv.org/abs/2404.16821）
关键补充：仓库含 SigLip 视觉编码器集成、q-former 任意分辨率适配、端侧（iPad/CPU/NPU）推理优化代码

4. SigLip（替代 CLIP 的视觉编码器，Google）

官方代码仓库：https://github.com/google-research/big_vision（SigLip 核心实现）
核心论文：SigLIP: Signature Verification Loss for Image-Text Matching（arxiv：https://arxiv.org/abs/2303.15343）
工程化版本：siglip-so400m-14-980-flash-attn2-navit（MiniCPM 使用版本，ModelScope 可直接调用）

投影机制（Projection Mechanism）优化核心模型

InternLM-XComposer 系列（XComposer2 / XComposer2.5）

官方代码仓库：https://github.com/InternLM/XComposer2
核心论文：
1. InternLM-XComposer2: Boosting Vision-Language Alignment with Dual Projection Matrices（arxiv：https://arxiv.org/abs/2404.08404）
2. InternLM-XComposer2.5: High-Resolution Vision-Language Model for Screenshot-to-Code and 4K Image Understanding（技术报告，仓库内附）
关键特性：仓库含双投影矩阵（WB/WA）实现、4K 图像编码、截图转代码（S2C）专用微调代码

配套工程工具 / 框架（训练 / 微调 / 推理）

1. SWIFT 框架（MiniCPM-V 微调专用，阿里）

官方代码仓库：https://github.com/modelscope/swift
核心特性：支持 LoRA 微调、全参数微调，专为 MiniCPM-V 优化，含多图 / 视频微调训练脚本，显存效率优化
文档地址：https://swift.readthedocs.io/zh-cn/latest/

2. SGLang（LLaVA1.6 推理加速，高效大模型推理框架）

官方代码仓库：https://github.com/SGLang-Project/sglang
核心论文：SGLang: Efficient Serving for Large Language Models with Structured Generation（arxiv：https://arxiv.org/abs/2405.1GLang142）
关键特性：LLaVA1.6 官方推荐推理框架，支持高并发视觉对话，大幅提升推理速度

3. Qwen2-7B（MiniCPM-V 2.6 基础 LLM，阿里）

官方代码仓库：https://github.com/QwenLM/Qwen2
核心论文：Qwen2: A Family of High-Performance Large Language Models（arxiv：https://arxiv.org/abs/2407.07723）
关键特性：MiniCPM-V 2.6 的语言模型底座，开源 7B/14B/72B 全系列，适配多模态特征对齐

4. DeepSpeed（显存优化训练，MiniCPM-V/LLaVA 均适配）

官方代码仓库：https://github.com/microsoft/DeepSpeed
核心文档：https://www.deepspeed.ai/docs/configure/zero/（ZERO-3 显存优化配置，适配 LLaVA/MiniCPM 微调）

关键基准测试数据集 / 评测工具

为验证模型性能，上述模型均采用以下主流多模态评测基准，附官方地址：

LLaVA Bench：https://github.com/haotian-liu/LLaVA/tree/main/llava/eval（LLaVA 官方评测基准）
OCRBench：https://github.com/yscacaca/OCRBench（OCR 能力评测）
DocVQA：https://rrc.cvc.uab.es/?ch=17（文档视觉问答基准）
Math-Vista：https://github.com/luka-group/MathVista（数学视觉推理基准）
VQA-Radiology：https://github.com/ayushjain91/VQA-Radiology（医疗影像 VQA 基准）

InternVL系列模型

InternVL 1.5：核心技术与能力

1. 核心架构

视觉编码器：基于 InternViT-6B-448 进行视觉特征编码
语言模型：搭配 InternLM2-20B 大语言模型
关键技术：
- 动态高分辨率：根据输入图像长宽比和分辨率，动态划分为不同大小图块，最高支持 4K 分辨率 输入
- pixel-shuffle 压缩：将图像编码压缩至 1/4，显著降低显存占用
- 多模态能力：支持多图推理、视频打标、OCR、文档理解、数学推理等

2. 训练数据集

覆盖多场景高质量双语数据：

图像描述（Captioning）、通用问答（General QA）
科学计算、图表分析、数学推理
OCR、文档理解、目标定位（Grounding）
多轮对话（Conversation），支持中英双语

3.论文和代码

论文：
- arXiv: https://arxiv.org/abs/2404.16821
- 标题：How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
代码仓库：https://github.com/OpenGVLab/InternVL
模型权重：https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5
在线 Demo：https://internvl.opengvlab.com

InternVL 2：模型扩展与数据增强

1. 模型家族扩展

提供从 1B 到 76B 不同参数量的模型版本，适配不同算力场景：

模型名称	视觉部分	语言部分
InternVL2-1B	InternViT-300M-448px	Qwen2-0.5B-Instruct
InternVL2-8B	InternViT-300M-448px	internlm2_5-7b-chat
InternVL2-26B	InternViT-6B-448px-V1.5	internlm2-chat-20b
InternVL2-40B	InternViT-6B-448px-V1.5	Nous-Hermes-2-Yi-34B

2. 数据构造增强

在 Llava 数据集基础上，新增三类能力支持：

目标定位 / 检测：支持 <ref>类别名</ref><box>[x1,y1,x2,y2]</box> 格式的 bounding box 输入输出
视频数据输入：直接支持视频文件路径，进行视频内容理解与描述
多图像输入：支持同时输入多张图片，进行跨图对比推理

3. 微调教程

提供详细微调指南：Fine-tune on a Custom Dataset — internvl，方便开发者在自定义数据集上适配业务场景

4. 论文和代码

论文：
- arXiv: https://arxiv.org/abs/2412.05271
- 标题：Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
代码仓库：同 InternVL 1.5，https://github.com/OpenGVLab/InternVL
模型权重：https://huggingface.co/OpenGVLab/InternVL2-8B 等系列模型
官方博客：https://internvl.github.io/blog/2024-07-02-InternVL-2.0

高性能 MLLM 模型部署

1. 部署必要条件

支持批量推理与高并发场景
支持量化版本模型（如 4bit/8bit）推理
具备 KV cache 等关键加速手段

2. 推荐部署框架

框架	核心优势	适用场景
SGlang	基于 vLLM 封装，提供 OpenAI 兼容 API	Llava 等多模态模型部署
LMDeploy	部署简单快捷，支持 PyTorch 接口	国内多模态模型快速上线
vLLM	支持框架种类多，V6 版本支持多图推理	通用高性能多模态推理服务

2.2.4 Beyond VL: 支持更多模态输入的大语言模型

Beyond VL：支持视频输入的 MLLM

这部分模型聚焦于视频 - 文本多模态交互，核心是将时序视觉信息对齐到 LLM 的语义空间。

1. MiniGPT4-Video

核心思路：沿用 MiniGPT4 的架构，将视频帧通过 ViT 提取特征，经线性层投影后，与文本指令一起输入 LLM（如 Vicuna），并通过 LoRA 微调实现视频理解。
典型能力：视频内容描述、异常检测（如 “What is strange in this video?”）。
论文 / 代码：
- 论文：MiniGPT4-Video: Advancing Multimodal Large Language Models for Video Understanding
- 代码：https://github.com/Vision-CAIR/MiniGPT4-Video

2. LLAVA-Next-Video

核心思路：在 LLaVA-Next 基础上扩展视频输入，通过多帧采样和多块编码（Multi-patch / Multi-frame）将视频时序信息压缩为视觉特征，再输入 LLM。
典型能力：视频问答、时序事件理解。
论文 / 代码：
- 论文：LLaVA-NeXT-Video: Open Multimodal Models for Video Understanding
- 代码：https://github.com/LLaVA-VL/LLaVA-NeXT

3. VideoLLaMA2

核心思路：支持视频 + 音频双模态输入，通过 STC（Spatial-Temporal Convolution）连接器处理视频时序特征，同时用音频编码器提取声纹特征，共同投影到 LLM 空间。
典型能力：音视频内容理解、情感分析（如描述动物互动的温馨感）。
论文 / 代码：
- 论文：VideoLLaMA 2: Advancing Cross-modal Understanding for Audio-Visual Generation
- 代码：https://github.com/DAMO-NLP-SG/VideoLLaMA2

4. VideoLLaVA

核心思路：基于 LLaVA 架构，用统一的视觉编码器（LanguageBind）处理图像和视频，通过共享投影层将视觉特征对齐到 Vicuna-1.5 LLM。
典型能力：图像 - 视频跨模态对比、内容一致性判断（如 “Are the image and the video depicting the same place?”）。
论文 / 代码：
- 论文：Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
- 代码：https://github.com/PKU-YuanGroup/Video-LLaVA

Beyond VL：支持实时语音输入的 MLLM

这部分模型将语音作为核心模态，实现语音识别、翻译、分析与问答。

1. Qwen-Audio

核心思路：基于通义千问 QwenLM，接入音频编码器，通过多任务训练框架支持语音转写、翻译、场景分析、关键词提取等。
典型能力：多语言语音识别、语音翻译、音频场景分析（如识别背景鸟鸣、吉他声）。
论文 / 代码：
- 论文：Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Models
- 代码：https://github.com/QwenLM/Qwen-Audio

2. LLaMA-Omni

核心思路：实现实时语音交互，通过 Speech Adaptor 将语音特征对齐到 LLaMA，同时支持同步生成文本与语音输出（Vocoder），降低延迟。
典型能力：实时语音问答、语音指令执行（如 “给我写 NLP 论文的建议”）。
论文 / 代码：
- 论文：LLaMA-Omni: Seamless Speech Interaction with Large Language Models
- 代码：https://github.com/ictnlp/LLaMA-Omni
关键要素：多模态 LLM 三要素 ——Encoder（特征编码）、Adaptor（特征映射）、Decoder（特征解码）。

Beyond VL：支持多模态输入的 MLLM

这部分模型统一处理图像 / 视频 / 语音 / 文本等多模态输入，核心是将不同模态 “翻译” 为 LLM 可理解的序列。

1. X-LLM

核心思路：将多模态视为 “外语”，通过 X2L 接口（Q-Former/C-Former + Adapter）将图像 / 视频 / 语音特征分别对齐到 LLM，实现统一多模态理解。
典型能力：跨模态问答（如 “这是什么地方？”“描述这段视频”）。
论文 / 代码：
- 论文：X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages
- 代码：https://github.com/X-LANCE/X-LLM

2. BLIP-2 & Q-Former

核心思路：Q-Former 作为视觉 - 语言桥梁，在冻结图像编码器和 LLM 的前提下，通过查询向量（Queries）学习视觉特征与文本的对齐，是后续多模态模型的基础组件。
典型能力：图像 - 文本生成（如为日落图写浪漫文案）。
论文 / 代码：
- 论文：BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 代码：https://github.com/salesforce/BLIP-2

3. VITA

核心思路：开源交互式全模态 MLLM，支持音频 / 图像 / 视频 / 文本输入，通过 Generation 和 Monitoring 双模块实现实时交互与中断生成（如用户语音打断模型输出）。
典型能力：多模态对话、上下文聚合、实时交互。
论文 / 代码：
- 论文：VITA: Towards Open-Source Interactive Omni Multimodal LLM
- 代码：https://github.com/VITA-MLLM/VITA

Beyond VL：支持多模态输入 + 输出的 MLLM

这部分模型实现任意模态输入→任意模态输出（Any-to-Any），是下一代多模态 AI 的方向。

1. NExT-GPT

核心思路：Any-to-Any 架构，输入端对文本 / 图像 / 音频 / 视频编码并投影到 LLM；输出端通过 Diffusion 模型生成图像 / 音频 / 视频，实现多模态生成。
典型能力：图文生视频、语音生图像等跨模态生成。
论文 / 代码：
- 论文：NExT-GPT: Any-to-Any Multimodal LLM
- 代码：https://github.com/NExT-GPT/NExT-GPT

2. Any-GPT

核心思路：通过离散序列建模，将语音 / 图像 / 音乐等模态 Token 化，与文本 Token 统一输入 LLM；输出时通过 De-tokenizer 还原为对应模态。
典型能力：语音 + 音乐生成文本 / 音乐 / 语音响应、图文生音乐。
论文 / 代码：

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

论文：https://arxiv.org/abs/2402.12226
代码：https://github.com/AI-Research-BD/Any-GPT

2.2.5 多模态智能体

多模态智能体（Multimodal Agents）

这组图片展示了多模态大语言模型如何通过调用工具 / 技能，扩展能力边界，完成更复杂任务的技术范式。

1️⃣ 通用多模态智能体架构

这是一个基础框架：

核心大脑（LLM）：作为中枢，负责与用户交互、做任务规划（比如决定先调用 Tool 1，再 Tool 2，最后 Tool 3）。
工具生态：LLM 可以按需调用不同类型的外部工具：
- Tool 1：开源模型（如视觉理解、语音识别等专用模型）
- Tool 2：公开 / 私有 API（如搜索、天气、支付等服务）
- Tool 3：代码解释器（用于数学计算、数据分析等）
工作流：用户输入 → LLM 规划 → 链式调用工具 → 汇总结果 → 回复用户。

2️⃣ LLaVA-Plus：即插即用的多模态助手

LLaVA-Plus 是一个典型实现，它把视觉能力和工具调用结合起来：

四步执行流程：
1. 指令输入：用户提供文本指令 + 图片
2. 工具决策：LLM 分析任务，判断是否需要调用外部工具，并生成调用 prompt
3. 工具执行：运行工具并返回结果
4. 结果汇总：LLM 整合工具输出，生成最终回复
能力全景：
- 视觉理解：对象检测、语义分割、OCR 文字识别
- 视觉生成：条件生成、图像编辑
- 视觉交互：点选 / 框选 / 涂鸦式分割
- 外部知识：图搜、社交内容生成等

3️⃣ CogAgent：面向 GUI 的多模态智能体

CogAgent 是一个更偏向实际操作场景的智能体，专门强化了图形界面（GUI）交互能力：

核心能力：
- 支持高分辨率图像输入（1120×1120），能看清屏幕细节
- 强化Visual Agent：可以做复杂任务规划，一步步引导操作
- 强化GUI 解析与定位：能精准识别界面元素、定位按钮，模拟人类点击 / 输入
应用场景：
- 电脑端：指导用户在浏览器中搜索论文、操作软件
- 手机端：引导用户更改系统设置、查询信息、完成导航等
本质：让 AI 像人一样 “看屏幕、点鼠标 / 触屏、完成操作”。