99% 的大模型都以 LLM 为核心,剩下的 1% 是 Google 和纯生成模型
前言
今天我们在使用不同的模型,为我们工作或日常提供便利,DeepSeek去做逻辑推理,豆包模型去做中文理解历史人物解析背后故事生成,通义千问模型帮我们做文书撰写、合同审查、PPT 生成…
这些产品的定位功能各不相同,仿佛是用完全不同的技术实现的。但如果剥开它们的外壳,我们会发现一个惊人的事实:99% 能用到的现代大模型,本质上都共享着同一个核心 —— 一个强大的大语言模型 (LLM)。【另外 1% 几乎全是纯单模态生成模型,它们只擅长特定类型的内容生成,不具备通用的复杂逻辑处理能力】
这篇文章学习目标:
- 分清大模型、LLM、多模态模型之间的关系
- 结合GPT-4o、Claude 3、豆包4.0、DeepSeek等国内外最常使用及具代表性的模型,一步步拆解大模型的实现本质,
- 底搞懂为什么LLM会成为所有AI的"大脑"。
一、先把概念搞清楚:大模型≠LLM
很多人会把"大模型"和"大语言模型"混为一谈,这是最常见的认知误区。我们先从定义上把它们分清楚:
1. 什么是大模型?
大模型的标准全称是大型预训练模型(Large Pre-trained Model, LPM),它有三个不可缺少的特征:
- 规模大:参数量通常在数十亿到万亿级别,训练数据量达到PB级
- 预训练+微调:先在海量通用数据上进行一次性预训练,再通过少量数据微调就能适配各种下游任务
- 涌现能力:当规模达到一定阈值后,会突然具备很多预训练时没有教过的能力,比如逻辑推理、数学计算
简单来说,大模型是一个通用的人工智能底座,它可以处理各种类型的数据,完成各种不同的任务。
2. 什么是大语言模型(LLM)?
大语言模型(LLM)是大模型家族中最重要、最成熟的一个子集。它的定义非常明确:
- 专门以纯文本数据(书籍、网页、代码、论文等)为训练素材
- 基于Transformer解码器架构构建
- 核心能力是理解和生成人类自然语言
国内用户最熟悉的纯LLM典型代表:
- DeepSeek V2.5:国内推理能力最强的开源纯文本大模型之一
- 豆包3.5:字节跳动自研的纯文本大模型,中文能力出色
- 通义千问2.5:阿里开源的中文能力标杆纯文本模型
- 文心一言3.5:百度推出的纯文本大语言模型
3. 大模型的完整家族树
大模型是一个庞大的家族,LLM只是其中一员:
大模型(大型预训练模型)
├─ 单模态大模型
│ ├─ 大语言模型(LLM):DeepSeek V2.5、豆包3.5、通义千问2.5
│ ├─ 大视觉模型(LVM):Stable Diffusion、文心一格
│ ├─ 大语音模型(LAM):豆包语音、通义语音
│ └─ 大视频模型:可灵、即梦、Sora
└─ 多模态大模型
├─ 图文多模态:DeepSeek-VL、通义千问VL
├─ 图文音多模态:GPT-4o、豆包4.0、Claude 3
└─ 全模态大模型:Gemini Advanced
看到这里我们可能会问:既然LLM只是大模型的一个分支,为什么说它是所有大模型的核心?这就要从LLM的本质说起了。
二、为什么偏偏是LLM,成为了大模型的大脑?
LLM的本质其实非常简单:它是一个被训练来"预测下一个词"的神经网络。
1. 一个简单任务,催生了通用智能
我们可能觉得难以置信:这么一个看起来极其简单的任务,怎么会诞生出接近人类的智能?
举个例子,当LLM看到"北京是中国的"这句话时,它会预测下一个词最可能是"首都";当它看到"1+1=“时,会预测下一个词是"2”;当它看到"请证明勾股定理"时,会一步步预测出接下来的每一个字,直到完成整个证明过程。
在PB级人类文本数据上进行万亿次这样的预测训练后,LLM不仅学会了语法和拼写,还意外地掌握了:
- 人类的常识和知识
- 逻辑推理和数学计算能力
- 复杂指令的理解和执行能力
- 甚至一定程度的创造力
这就是大模型最神奇的涌现能力——量变引起质变。而目前为止,只有LLM通过"预测下一个词"这个任务,成功涌现出了通用的逻辑推理能力。
2. 语言是人类智能的载体
LLM能成为核心的另一个根本原因是:语言是人类知识和思维的载体。
人类所有的文明成果、科学知识、逻辑思维,最终都可以用语言来表达。一个掌握了人类语言的模型,本质上就掌握了人类的思维方式。
而其他模态(图像、声音、视频)虽然也能传递信息,但它们无法承载复杂的逻辑推理和抽象知识。一张图片可以告诉你"猫长什么样",但无法告诉你"为什么猫会抓老鼠";一段视频可以展示"苹果落地",但无法推导出"万有引力定律"。
这就是为什么其他所有模态的大模型,最终都需要接入一个LLM作为大脑——只有LLM能进行思考和推理。
三、多模态大模型的本质:LLM大脑+感官器官
这是本文最核心的部分,也是90%的人都不知道的大模型实现真相。
所有现代主流多模态大模型,都采用完全相同的架构:一个强大的LLM作为大脑,加上若干个负责输入输出的"感官器官"。
1. 标准架构公式
多模态大模型 = 强大的LLM大脑 + 各模态编码器 + 各模态解码器
2. 工作流程详解(以豆包4.0看图为例)
当你给豆包4.0发一张猫的图片,并问"这是什么动物?"时,整个过程分为三步:
-
输入转换(眼睛看):
- 图片输入专门的视觉编码器,被转换成一串和文本token格式相同的向量
- 这个过程就像人的眼睛把光信号转换成神经信号传给大脑
-
大脑处理(LLM思考):
- 转换后的图像向量和你的文本指令"这是什么动物?"拼接在一起,输入豆包自研的纯文本LLM
- LLM根据自己学到的知识进行推理,输出文本回答"这是一只猫"
-
输出转换(嘴巴说):
- 如果你开启了语音模式,LLM输出的文本会再输入语音解码器,转换成自然的人类语音
整个过程中,视觉编码器只负责"翻译",不负责"思考"。所有的理解、推理和决策,100%由LLM完成。
3. 最无可辩驳的证据:国内开源多模态模型
如果说商用模型的架构是黑箱,那么开源多模态模型的代码和权重完全公开,是"LLM为核心"最直接的证明。
例子1:DeepSeek-VL(国内最优秀的开源多模态模型之一)
DeepSeek-VL的架构清晰地展示了"LLM为核心"的设计理念:
DeepSeek-VL = SigLIP视觉编码器 + 轻量级投影层 + DeepSeek纯文本LLM
- 整个模型90%以上的参数都是DeepSeek纯文本LLM的参数
- 视觉编码器只占不到10%的参数
- 投影层更是只有几百万参数,几乎可以忽略不计
训练DeepSeek-VL的时候,核心的LLM权重是完全冻结的,只需要训练视觉编码器和投影层。也就是说,你只需要用一张消费级显卡(如 RTX 3090/4090),训练几天,就能把一个纯文本的 DeepSeek 变成一个能看图说话的多模态模型。
例子2:豆包多模态模型的架构原理
豆包4.0虽然不是完全开源的,但字节跳动官方在技术分享中明确披露了其架构:
豆包4.0 = 字节自研视觉编码器 + 字节自研语音编码器 + 豆包3.5纯文本LLM + 语音解码器
豆包4.0的核心推理引擎,就是在纯文本的豆包3.5基础上优化而来的。所有的逻辑思考、指令理解和知识问答,都由这个纯文本LLM完成。视觉和语音模块只是负责将非文本数据转换成LLM能理解的格式。
例子3:通义千问VL(阿里开源多模态模型)
通义千问VL作为国内另一个主流开源多模态模型,同样遵循这个架构:
通义千问VL = SigLIP视觉编码器 + 特征融合层 + 通义千问纯文本LLM
阿里只是在视觉编码器和特征融合方式上做了一些优化,核心仍然是通义千问纯文本大语言模型。
4. 国内外主流商用多模态模型验证
所有我们能叫出名字的商用多模态模型,都遵循这个架构:
- GPT-4o(OpenAI):核心是GPT-4纯文本LLM,添加了视觉编码器、语音编码器和语音解码器
- Claude 3 Opus(Anthropic):核心是Claude 3纯文本LLM,添加了视觉编码器
- 豆包4.0(字节跳动):核心是豆包3.5纯文本LLM,扩展了图像理解、语音交互和视频生成能力
- 文心一言4.0(百度):核心是文心纯文本LLM,添加了多模态能力
这些模型在纯文本任务上的表现,和它们对应的纯文本版本完全一致,这就直接证明了它们的核心没有改变。
四、单模态大模型:没有大脑的专业器官
看到这里我们可能会问:那Stable Diffusion、可灵这些纯图像和视频生成模型,也以LLM为核心吗?
答案是:它们的核心生成引擎不是LLM,但它们正在快速集成LLM作为辅助大脑。
1. 纯单模态大模型的本质
纯单模态大模型是没有通用推理能力的"专业器官":
- Stable Diffusion/文心一格:核心是扩散模型,只能从随机噪声中生成图像,无法理解复杂的逻辑指令
- 可灵/即梦:核心是扩散Transformer(DiT),只能生成视频,无法进行思考和推理
- 豆包语音:核心是Transformer编码器-解码器,只能进行语音和文本的转换
它们就像一个没有大脑的画家,只会机械地画画,但不知道自己画的是什么,也无法理解"画一只戴着眼镜、正在看书的猫"这样复杂的指令。
2. 单模态模型正在拥抱LLM
为了解决指令理解能力差的问题,所有新一代单模态生成模型都开始集成LLM:
- Midjourney v6:集成了专门训练的LLM来解析复杂的自然语言提示词,相比v5版本,指令理解能力提升了数倍
- DALL-E 3:深度集成了GPT-4,会先让GPT-4把用户的简单提示词扩展成详细的描述,再交给扩散模型生成图像
- 可灵AI视频:集成了通义千问LLM来理解用户的视频生成指令,能够生成更符合逻辑的视频内容
未来的趋势很明显:所有单模态大模型都会接入一个强大的LLM作为大脑,否则就会被淘汰。
五、唯一的反例与技术路线之争
看到这里,细心的读者可能会发现:我一直用的是"几乎所有"而不是"所有"。这是因为确实存在一个例外。
1. 唯一的反例:Google Gemini 1.0 Ultra
Google在发布初代Gemini的时候,宣称它是一个**“原生多模态统一模型”**。【Gemini 模型的使用,在全球市场是绝对的第二大玩家,但是国内用户少】
和"LLM+适配器"的架构不同,Gemini 1.0 Ultra从预训练阶段就同时用文本、图像、音频、视频数据训练,所有模态共享同一个Transformer解码器主干。理论上,它没有一个单独的"纯文本LLM模块",不存在谁是核心的问题。【所以感叹还是Google牛皮,有钱烧啊不走寻常路】
2. 反例的局限性
虽然Gemini 1.0 Ultra走了一条不同的技术路线,但它并不影响我们的核心结论:
- 这是全世界唯一的例外,其他所有多模态大模型都采用LLM中心架构
- 即使是Gemini,语言仍然是其推理能力的主要来源,纯文本任务的表现仍然是衡量其能力的核心标准
- 最新的Gemini 2.0系列实际上已经大幅强化了语言能力,
向LLM中心架构靠拢
3. 行业共识
经过两年多的技术验证,"LLM为中心"已经成为行业公认的最高效、最成熟的技术路线。原生统一架构虽然听起来很美好,但在可预见的未来,还无法取代LLM中心架构。
所以,单纯对于中国大陆用户来说,这个结论可以进一步强化为:100% 我们能正常使用的大模型,全部都以 LLM 为核心。因为 Gemini 在中国大陆没有官方服务(除非你翻墙),而所有国产大模型,无论是多模态还是单模态生成模型,都采用了成熟的 LLM 中心架构。
六、未来趋势:LLM的核心地位只会越来越巩固
- 更多的模态会被接入LLM,比如3D模型、传感器数据、基因序列等
- LLM的上下文窗口会越来越大,能够处理更长的文本和更多的模态信息
- 小参数LLM的能力会快速提升,让更多设备能够本地运行多模态AI
结语
大模型的本质,就是一个会说话的大脑加上各种感官器官。
无论AI的功能多么丰富,无论它能生成多么逼真的图像和视频,背后支撑它思考和推理的,永远是那个强大的大语言模型。理解了这一点,我们就不再是大模型的被动使用者,而是能够站在更高的维度,看清AI技术的发展方向,更好地驾驭它为我们服务。
大模型的未来,本质上就是大语言模型的未来。
更多推荐



所有评论(0)