99% 的大模型都以 LLM 为核心，剩下的 1% 是 Google 和纯生成模型

Greg_Zhong

195人浏览 · 2026-06-11 13:21:11

Greg_Zhong · 2026-06-11 13:21:11 发布

前言

今天我们在使用不同的模型，为我们工作或日常提供便利，DeepSeek去做逻辑推理，豆包模型去做中文理解历史人物解析背后故事生成，通义千问模型帮我们做文书撰写、合同审查、PPT 生成…

这些产品的定位功能各不相同，仿佛是用完全不同的技术实现的。但如果剥开它们的外壳，我们会发现一个惊人的事实：99% 能用到的现代大模型，本质上都共享着同一个核心 —— 一个强大的大语言模型 (LLM)。【另外 1% 几乎全是纯单模态生成模型，它们只擅长特定类型的内容生成，不具备通用的复杂逻辑处理能力】

这篇文章学习目标：

分清大模型、LLM、多模态模型之间的关系
结合GPT-4o、Claude 3、豆包4.0、DeepSeek等国内外最常使用及具代表性的模型，一步步拆解大模型的实现本质，
底搞懂为什么LLM会成为所有AI的"大脑"。

一、先把概念搞清楚：大模型≠LLM

很多人会把"大模型"和"大语言模型"混为一谈，这是最常见的认知误区。我们先从定义上把它们分清楚：

1. 什么是大模型？

大模型的标准全称是大型预训练模型(Large Pre-trained Model, LPM)，它有三个不可缺少的特征：

规模大：参数量通常在数十亿到万亿级别，训练数据量达到PB级
预训练+微调：先在海量通用数据上进行一次性预训练，再通过少量数据微调就能适配各种下游任务
涌现能力：当规模达到一定阈值后，会突然具备很多预训练时没有教过的能力，比如逻辑推理、数学计算

简单来说，大模型是一个通用的人工智能底座，它可以处理各种类型的数据，完成各种不同的任务。

2. 什么是大语言模型(LLM)？

大语言模型(LLM)是大模型家族中最重要、最成熟的一个子集。它的定义非常明确：

专门以纯文本数据（书籍、网页、代码、论文等）为训练素材
基于Transformer解码器架构构建
核心能力是理解和生成人类自然语言

国内用户最熟悉的纯LLM典型代表：

DeepSeek V2.5：国内推理能力最强的开源纯文本大模型之一
豆包3.5：字节跳动自研的纯文本大模型，中文能力出色
通义千问2.5：阿里开源的中文能力标杆纯文本模型
文心一言3.5：百度推出的纯文本大语言模型

3. 大模型的完整家族树

大模型是一个庞大的家族，LLM只是其中一员：

大模型（大型预训练模型）
├─ 单模态大模型
│  ├─ 大语言模型(LLM)：DeepSeek V2.5、豆包3.5、通义千问2.5
│  ├─ 大视觉模型(LVM)：Stable Diffusion、文心一格
│  ├─ 大语音模型(LAM)：豆包语音、通义语音
│  └─ 大视频模型：可灵、即梦、Sora
└─ 多模态大模型
   ├─ 图文多模态：DeepSeek-VL、通义千问VL
   ├─ 图文音多模态：GPT-4o、豆包4.0、Claude 3
   └─ 全模态大模型：Gemini Advanced

看到这里我们可能会问：既然LLM只是大模型的一个分支，为什么说它是所有大模型的核心？这就要从LLM的本质说起了。

二、为什么偏偏是LLM，成为了大模型的大脑？

LLM的本质其实非常简单：它是一个被训练来"预测下一个词"的神经网络。

1. 一个简单任务，催生了通用智能

我们可能觉得难以置信：这么一个看起来极其简单的任务，怎么会诞生出接近人类的智能？

举个例子，当LLM看到"北京是中国的"这句话时，它会预测下一个词最可能是"首都"；当它看到"1+1=“时，会预测下一个词是"2”；当它看到"请证明勾股定理"时，会一步步预测出接下来的每一个字，直到完成整个证明过程。

在PB级人类文本数据上进行万亿次这样的预测训练后，LLM不仅学会了语法和拼写，还意外地掌握了：

人类的常识和知识
逻辑推理和数学计算能力
复杂指令的理解和执行能力
甚至一定程度的创造力

这就是大模型最神奇的涌现能力——量变引起质变。而目前为止，只有LLM通过"预测下一个词"这个任务，成功涌现出了通用的逻辑推理能力。

2. 语言是人类智能的载体

LLM能成为核心的另一个根本原因是：语言是人类知识和思维的载体。

人类所有的文明成果、科学知识、逻辑思维，最终都可以用语言来表达。一个掌握了人类语言的模型，本质上就掌握了人类的思维方式。

而其他模态（图像、声音、视频）虽然也能传递信息，但它们无法承载复杂的逻辑推理和抽象知识。一张图片可以告诉你"猫长什么样"，但无法告诉你"为什么猫会抓老鼠"；一段视频可以展示"苹果落地"，但无法推导出"万有引力定律"。

这就是为什么其他所有模态的大模型，最终都需要接入一个LLM作为大脑——只有LLM能进行思考和推理。

三、多模态大模型的本质：LLM大脑+感官器官

这是本文最核心的部分，也是90%的人都不知道的大模型实现真相。

所有现代主流多模态大模型，都采用完全相同的架构：一个强大的LLM作为大脑，加上若干个负责输入输出的"感官器官"。

1. 标准架构公式

多模态大模型 = 强大的LLM大脑 + 各模态编码器 + 各模态解码器

2. 工作流程详解（以豆包4.0看图为例）

当你给豆包4.0发一张猫的图片，并问"这是什么动物？"时，整个过程分为三步：

输入转换（眼睛看）：
- 图片输入专门的视觉编码器，被转换成一串和文本token格式相同的向量
- 这个过程就像人的眼睛把光信号转换成神经信号传给大脑
大脑处理（LLM思考）：
- 转换后的图像向量和你的文本指令"这是什么动物？"拼接在一起，输入豆包自研的纯文本LLM
- LLM根据自己学到的知识进行推理，输出文本回答"这是一只猫"
输出转换（嘴巴说）：
- 如果你开启了语音模式，LLM输出的文本会再输入语音解码器，转换成自然的人类语音

整个过程中，视觉编码器只负责"翻译"，不负责"思考"。所有的理解、推理和决策，100%由LLM完成。

3. 最无可辩驳的证据：国内开源多模态模型

如果说商用模型的架构是黑箱，那么开源多模态模型的代码和权重完全公开，是"LLM为核心"最直接的证明。

例子1：DeepSeek-VL（国内最优秀的开源多模态模型之一）

DeepSeek-VL的架构清晰地展示了"LLM为核心"的设计理念：

DeepSeek-VL = SigLIP视觉编码器 + 轻量级投影层 + DeepSeek纯文本LLM

整个模型90%以上的参数都是DeepSeek纯文本LLM的参数
视觉编码器只占不到10%的参数
投影层更是只有几百万参数，几乎可以忽略不计

训练DeepSeek-VL的时候，核心的LLM权重是完全冻结的，只需要训练视觉编码器和投影层。也就是说，你只需要用一张消费级显卡（如 RTX 3090/4090），训练几天，就能把一个纯文本的 DeepSeek 变成一个能看图说话的多模态模型。

例子2：豆包多模态模型的架构原理

豆包4.0虽然不是完全开源的，但字节跳动官方在技术分享中明确披露了其架构：

豆包4.0 = 字节自研视觉编码器 + 字节自研语音编码器 + 豆包3.5纯文本LLM + 语音解码器

豆包4.0的核心推理引擎，就是在纯文本的豆包3.5基础上优化而来的。所有的逻辑思考、指令理解和知识问答，都由这个纯文本LLM完成。视觉和语音模块只是负责将非文本数据转换成LLM能理解的格式。

例子3：通义千问VL（阿里开源多模态模型）

通义千问VL作为国内另一个主流开源多模态模型，同样遵循这个架构：

通义千问VL = SigLIP视觉编码器 + 特征融合层 + 通义千问纯文本LLM

阿里只是在视觉编码器和特征融合方式上做了一些优化，核心仍然是通义千问纯文本大语言模型。

4. 国内外主流商用多模态模型验证

所有我们能叫出名字的商用多模态模型，都遵循这个架构：

GPT-4o（OpenAI）：核心是GPT-4纯文本LLM，添加了视觉编码器、语音编码器和语音解码器
Claude 3 Opus（Anthropic）：核心是Claude 3纯文本LLM，添加了视觉编码器
豆包4.0（字节跳动）：核心是豆包3.5纯文本LLM，扩展了图像理解、语音交互和视频生成能力
文心一言4.0（百度）：核心是文心纯文本LLM，添加了多模态能力

这些模型在纯文本任务上的表现，和它们对应的纯文本版本完全一致，这就直接证明了它们的核心没有改变。

四、单模态大模型：没有大脑的专业器官

看到这里我们可能会问：那Stable Diffusion、可灵这些纯图像和视频生成模型，也以LLM为核心吗？

答案是：它们的核心生成引擎不是LLM，但它们正在快速集成LLM作为辅助大脑。

1. 纯单模态大模型的本质

纯单模态大模型是没有通用推理能力的"专业器官"：

Stable Diffusion/文心一格：核心是扩散模型，只能从随机噪声中生成图像，无法理解复杂的逻辑指令
可灵/即梦：核心是扩散Transformer(DiT)，只能生成视频，无法进行思考和推理
豆包语音：核心是Transformer编码器-解码器，只能进行语音和文本的转换

它们就像一个没有大脑的画家，只会机械地画画，但不知道自己画的是什么，也无法理解"画一只戴着眼镜、正在看书的猫"这样复杂的指令。

2. 单模态模型正在拥抱LLM

为了解决指令理解能力差的问题，所有新一代单模态生成模型都开始集成LLM：

Midjourney v6：集成了专门训练的LLM来解析复杂的自然语言提示词，相比v5版本，指令理解能力提升了数倍
DALL-E 3：深度集成了GPT-4，会先让GPT-4把用户的简单提示词扩展成详细的描述，再交给扩散模型生成图像
可灵AI视频：集成了通义千问LLM来理解用户的视频生成指令，能够生成更符合逻辑的视频内容

未来的趋势很明显：所有单模态大模型都会接入一个强大的LLM作为大脑，否则就会被淘汰。

五、唯一的反例与技术路线之争

看到这里，细心的读者可能会发现：我一直用的是"几乎所有"而不是"所有"。这是因为确实存在一个例外。

1. 唯一的反例：Google Gemini 1.0 Ultra

Google在发布初代Gemini的时候，宣称它是一个**“原生多模态统一模型”**。【Gemini 模型的使用，在全球市场是绝对的第二大玩家，但是国内用户少】

和"LLM+适配器"的架构不同，Gemini 1.0 Ultra从预训练阶段就同时用文本、图像、音频、视频数据训练，所有模态共享同一个Transformer解码器主干。理论上，它没有一个单独的"纯文本LLM模块"，不存在谁是核心的问题。【所以感叹还是Google牛皮，有钱烧啊不走寻常路】

2. 反例的局限性

虽然Gemini 1.0 Ultra走了一条不同的技术路线，但它并不影响我们的核心结论：

这是全世界唯一的例外，其他所有多模态大模型都采用LLM中心架构
即使是Gemini，语言仍然是其推理能力的主要来源，纯文本任务的表现仍然是衡量其能力的核心标准
最新的Gemini 2.0系列实际上已经大幅强化了语言能力，向LLM中心架构靠拢

3. 行业共识

经过两年多的技术验证，"LLM为中心"已经成为行业公认的最高效、最成熟的技术路线。原生统一架构虽然听起来很美好，但在可预见的未来，还无法取代LLM中心架构。

所以，单纯对于中国大陆用户来说，这个结论可以进一步强化为：100% 我们能正常使用的大模型，全部都以 LLM 为核心。因为 Gemini 在中国大陆没有官方服务（除非你翻墙），而所有国产大模型，无论是多模态还是单模态生成模型，都采用了成熟的 LLM 中心架构。

六、未来趋势：LLM的核心地位只会越来越巩固

更多的模态会被接入LLM，比如3D模型、传感器数据、基因序列等
LLM的上下文窗口会越来越大，能够处理更长的文本和更多的模态信息
小参数LLM的能力会快速提升，让更多设备能够本地运行多模态AI

结语

大模型的本质，就是一个会说话的大脑加上各种感官器官。

无论AI的功能多么丰富，无论它能生成多么逼真的图像和视频，背后支撑它思考和推理的，永远是那个强大的大语言模型。理解了这一点，我们就不再是大模型的被动使用者，而是能够站在更高的维度，看清AI技术的发展方向，更好地驾驭它为我们服务。

大模型的未来，本质上就是大语言模型的未来。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

【花雕动手做】行空板 K10 系列实验之人工智能调用语音合成（TTS）模块

AI Agent技术社区

苏州企业AI Agent智能体从概念到落地：2026年开发者必须关注的技术范式与工程实践

AI Agent技术社区

GitHub 狂揽 4万+ Star！这个项目直接让你省下 60–95% 的 Token

AI Agent技术社区

所有评论(0)

查看更多评论

Greg_Zhong

@qq_41930094

已为社区贡献2条内容

99% 的大模型都以 LLM 为核心，剩下的 1% 是 Google 和纯生成模型

Greg_Zhong

前言

一、先把概念搞清楚：大模型≠LLM

1. 什么是大模型？

2. 什么是大语言模型(LLM)？

3. 大模型的完整家族树

二、为什么偏偏是LLM，成为了大模型的大脑？

1. 一个简单任务，催生了通用智能

2. 语言是人类智能的载体

三、多模态大模型的本质：LLM大脑+感官器官

1. 标准架构公式

2. 工作流程详解（以豆包4.0看图为例）

3. 最无可辩驳的证据：国内开源多模态模型

例子1：DeepSeek-VL（国内最优秀的开源多模态模型之一）

例子2：豆包多模态模型的架构原理

例子3：通义千问VL（阿里开源多模态模型）

4. 国内外主流商用多模态模型验证

四、单模态大模型：没有大脑的专业器官

1. 纯单模态大模型的本质

2. 单模态模型正在拥抱LLM

五、唯一的反例与技术路线之争

1. 唯一的反例：Google Gemini 1.0 Ultra

2. 反例的局限性

3. 行业共识

六、未来趋势：LLM的核心地位只会越来越巩固

结语

所有评论(0)

温馨提示：您尚未绑定手机号

Greg_Zhong