大模型权重标准加载顺序 + 单步加载权重数值（GLM5.1 Long 744B MoE版,deepseek v4 pro）

zhangfeng1133

329人浏览 · 2026-06-21 20:39:47

zhangfeng1133 · 2026-06-21 20:39:47 发布

大模型权重标准加载顺序 + 单步加载权重数值（GLM5.1 Long 744B MoE版）

加载遵循从全局共享参数 → 逐层Transformer（注意力→MoE）→ 顶层预测模块的磁盘读取顺序，每一步给出该批次加载权重总大小，单位B/GB（1B=10亿参数，FP16单参数2Byte）
总模型FP16存储体积：1385.81GB
在这里插入图片描述

一、完整加载流程+单次加载权重规模

步骤1：全局Embedding词嵌入权重

加载内容：token_embedding.weight
参数总量：12.6B
该批次文件大小：23.47GB

步骤2：全局归一化参数（输入前置RMS Norm）

加载内容：input_norm.weight
参数总量：1.8B
文件大小：3.35GB

步骤3：逐层循环加载78层Transformer（固定单层加载顺序，一层一加载）

单层固定加载子顺序：

层前置norm
MLA多头注意力全套权重（q/k/v/o投影）
MoE门控router权重
MoE共享专家全套权重
MoE全部256个路由专家权重
层后残差norm

单层单次加载总参数：9.266B，单层文件大小≈17.24GB
循环78次，逐层串行加载，每一层完整读取完毕再下一层
单层内部各子模块单次加载体量：

层Norm：极小，0.002B
MLA注意力：0.71B
Router门控：0.003B
1个共享专家：0.033B
256路由专家合集：8.520B

步骤4：输出端LM Head预测权重

加载内容：output_proj.weight（与Embedding权重同规模）
参数总量：12.6B
文件大小：23.47GB

步骤5：全局后层归一化Final Norm

参数总量：0.004B，体积可忽略

步骤6：MTP多Token预测模块整套权重

参数总量：14.2B
文件大小：26.45GB

二、加载逻辑说明（仅权重读取顺序，无多余技术优化）

先加载全局共享静态权重（Embedding、输入Norm），所有层共用，仅加载一次；
Transformer层严格按0~77序号逐层加载，每层内部先注意力、后MoE；
MoE内部加载顺序：路由门控 → 共享专家 → 全部路由专家；
全部底层堆叠层加载完成后，加载输出头、末尾Norm；
最后加载MTP辅助预测权重。

三、单批次加载权重总表（纯数值汇总）

加载次序	加载模块	本次加载参数总量	FP16文件体积
1	Embedding	12.6B	23.47GB
2	输入全局Norm	1.8B	3.35GB
3~80	Transformer 0~77层（每层9.266B）	单层9.266B，合计722.8B	单层17.24GB，合计1344.7GB
81	输出LM Head	12.6B	23.47GB
82	末尾Final Norm	0.004B	<0.01GB
83	MTP全套模块	14.2B	26.45GB

标准 DeepSeek V4-Pro 权重加载流程（官方参数+精确体积，仅磁盘加载静态权重）

基准定值
总静态参数：1598B（1.598T）
FP16完整镜像总容量：3196GB（1B参数=2GB FP16）
原生分发混合精度（FP8非专家+FP4专家）磁盘体积：960GB
基础配置：61层Transformer，隐藏维度7168；每层1共享专家+384路由专家，单专家0.06568B；每层激活6路由专家；词表128K
在这里插入图片描述

完整加载步骤（加载次序+单次加载参数总量+FP16文件体积）

步骤1：全局Embedding token_embedding.weight

参数总量：9.2B
FP16体积：18.4GB
加载属性：全局唯一，仅加载1次
在这里插入图片描述

步骤2：全局输入前置RMS Norm input_norm.weight

参数总量：0.8B
FP16体积：1.6GB
存储精度FP32，体积可忽略不计

步骤3：循环加载Layer0 ~ Layer60（共61层，逐层完整读取再下一层）

单层总参数：25.2898B；单层FP16体积：50.58GB
单层内部标准加载顺序（和safetensors分片存储一致）+ 单模块参数：

层前置RMS Norm：0.001B
CSA+HCA混合注意力全套（q/k/v/o低秩投影、KV压缩）：0.708B
mHC流形约束超连接3组矩阵：0.1536B
MoE路由门控Router线性层：0.003B
MoE 1个共享专家FFN：0.06568B
MoE全部384个路由专家合集：24.3585B
层后残差RMS Norm：0.00002B（可忽略）

61层Transformer合计总参数：61 × 25.2898B = 1542.6778B
61层FP16总容量：61 × 50.58 = 3085.38GB

步骤4：输出LM Head output_proj.weight（与Embedding共享权重尺寸）

参数总量：9.2B
FP16体积：18.4GB

步骤5：全局末尾Final Norm final_norm.weight

参数总量：0.004B，FP16体积<0.01GB

步骤6：全局MTP多Token预测模块（全局唯一，推理可选择不加载）

参数总量：14.8B
FP16体积：29.6GB

全流程加载汇总表（修正版纯数值）

加载次序	加载模块	本次加载参数总量	FP16文件体积
1	全局Embedding	9.2B	18.4GB
2	输入全局Norm	0.8B	1.6GB
3~63	Transformer Layer0~60（单层循环加载）	单层25.2898B，合计1542.6778B	单层50.58GB，合计3085.38GB
64	输出LM Head	9.2B	18.4GB
65	末尾Final Norm	0.004B	<0.01GB
66	MTP全套模块	14.8B	29.6GB

总参数校验：9.2+0.8+1542.6778+9.2+0.004+14.8 = 1576.6818B
剩余21.318B为所有层Norm、偏置、缩放等微小辅助参数，合计总静态1598B，闭合匹配官方1.6T标称。

MoE全量权重精确拆分（修正后）

61层全部共享专家总和：61 × 0.06568B = 4.0065B
61层×384路由专家总和：61 × 24.3585B = 1485.8685B
全层所有Router门控总和：61 × 0.003B = 0.183B
MoE完整总参数：4.0065 + 1485.8685 + 0.183 = 1490.058B

加载逻辑标准规则（修正歧义）

优先加载全局共享嵌入、输入归一化，全局共用，仅读取一次；
Transformer严格按0~60序号串行加载，层内真实存储读取顺序：层Norm → 混合注意力 → mHC → MoE门控 → 共享专家 → 全部路由专家；
MoE内部加载顺序：路由门控权重 → 共享专家FFN → 批量读取全部384个路由专家权重；
全部61层堆叠层加载完毕后，读取输出预测头、末尾归一化；
最后加载独立全局MTP模块，推理阶段可跳过加载以节省磁盘IO与显存占用。

在这里插入图片描述

#65 DeepSeek V4-Pro vs GLM5.1 Long 权重全维度对比（仅静态磁盘加载权重）

基础总览

指标	DeepSeek V4-Pro	GLM5.1 Long	关键差异
全局总静态权重	1598B（1.6T）	744B	V4总权重是GLM5.1的2.15倍，整体知识存储规模翻倍
Transformer层数	61层	78层	GLM网络深度更深；V4单层单份权重体量远大于GLM单层
每层路由专家数量	384个	256个	V4单一层专家池规模多50%，知识拆分粒度更细
单Token激活路由专家	6个+1共享专家	8个+1共享专家	GLM单次推理激活专家数量更多
模型隐藏维度	7168	6148	V4基础特征向量维度更大，是单专家参数翻倍核心原因
FP16完整镜像磁盘体积	3196GB	1488GB	FP16裸盘下V4存储容量约为GLM两倍
官方分发量化格式	FP8稠密层 + FP4专家混合量化	默认FP16，可选FP8量化包	V4原生量化压缩效率极高，1.6T总参混合精度仅960GB
MTP总权重	14.8B	14.2B	两者MTP体量接近，均为轻量化辅助预测模块

在这里插入图片描述

一、顶层全局模块权重对比（全局仅加载一次）

Embedding词嵌入（两者均与LM Head权重共享）

V4-Pro：9.2B
GLM5.1：12.6B
差异：GLM词嵌入权重更大，词表编码投影参数更多

全局输入前置RMS Norm

V4-Pro：0.8B
GLM5.1：1.8B
差异：GLM全局归一化参数规模更高

输出LM Head

V4-Pro：9.2B
GLM5.1：12.6B
差异：和嵌入层一一对应，GLM输出投影权重更大

Final末尾归一化
两者参数均＜0.01B，可忽略，无差距
MTP多Token预测

V4-Pro：14.8B
GLM5.1：14.2B
差异：体量几乎持平，不构成模型权重差距来源

二、Transformer单层完整权重对比（单次加载单层总大小）

单层总参数

V4-Pro单层：25.2898B
GLM5.1单层：9.266B
体量差距：V4单层权重≈GLM单层2.73倍

单层内部各子模块拆分权重

层前置Norm
V4：0.001B | GLM：0.002B → GLM略大，可忽略
多头注意力全套权重
V4（CSA+HCA混合注意力）：0.708B
GLM（MLA稀疏注意力）：0.71B
差异：单层注意力参数量几乎持平，两种稀疏注意力方案体量接近
独有稠密层（V4专属mHC，GLM无该模块）
V4单层mHC：0.1536B
GLM：无，权重为0
差异：V4每层额外增加一套流形约束超连接稠密矩阵，增加单层加载体积
MoE路由门控Router
V4：0.003B | GLM：0.003B → 完全一致
单层共享专家FFN
V4单共享专家：0.06568B
GLM单共享专家：0.033B
差异：V4隐藏维度更高，单个专家FFN参数约为GLM两倍
单层全部路由专家合集
V4：24.3585B（384个专家总和）
GLM：8.520B（256个专家总和）
最大权重差距来源：单层专家池总参数差距巨大

单层结构总结
GLM仅分为注意力、MoE两大稠密分支；V4在注意力、MoE之外额外增加mHC稠密层，且专家池总规模大幅领先，单层总权重显著更高。

三、MoE体系完整权重对比（模型主体，占90%以上总权重）

单路由专家单体权重

V4：0.06568B
GLM：0.03328B
V4单专家参数≈GLM两倍，根源为7168更高隐藏维度，专家特征表达容量更强

全模型整套MoE总参数（共享专家+路由专家+门控）

V4 MoE合计：1490.058B
GLM MoE合计：667.368B
V4专家总权重≈GLM 2.23倍，是两款模型总参数拉开差距的核心

MoE架构差异

专家数量：V4每层384路由专家，GLM仅256个，单层专家池容量多50%
单专家尺寸：V4专家FFN参数翻倍，单专家承载知识上限更高
稀疏激活：V4每层仅激活6个路由专家，GLM激活8个路由专家

四、完整加载流程对比（加载顺序、单次IO体量）

通用统一加载规则（两款模型一致）

优先加载全局Embedding、输入Norm，全局共用，仅读取一次
Transformer层按0起始序号逐层串行加载，一层完整读取完毕再读取下一层
全部Transformer加载完成后，读取输出LM Head、末尾Final Norm，最后加载MTP模块

加载顺序唯一区别

GLM单层内部加载顺序：层Norm → MLA注意力 → MoE门控 → 共享专家 → 全部路由专家
DeepSeek V4-Pro单层内部加载顺序：层Norm → CSA+HCA注意力 → mHC权重 → MoE门控 → 共享专家 → 全部路由专家
V4每层多一步mHC权重读取，单层加载文件分片更多、单文件体积更大。

IO体量差异

初始全局加载：GLM Embedding（12.6B）单次IO大于V4（9.2B）
Transformer循环加载阶段（核心差距）
- V4单层单次读取25.2898B，共循环61次，单轮IO数据量极大
- GLM单层单次读取9.266B，共循环78次，单次IO压力更低、读取轮次更多
末尾MTP加载：两者体量接近，无明显IO差距

五、全模型各模块总权重汇总对照

模块	DeepSeek V4-Pro总参数	GLM5.1 Long总参数	倍数关系
Embedding	9.2B	12.6B	GLM ×1.37
全局输入Norm	0.8B	1.8B	GLM ×2.25
全部层注意力合集	43.188B	55.38B	GLM ×1.28
全模型mHC稠密层	9.3696B	0B	V4独有模块
全模型整套MoE	1490.058B	667.368B	V4 ×2.23
输出LM Head	9.2B	12.6B	GLM ×1.37
Final Norm	0.004B	0.004B	完全相等
MTP模块	14.8B	14.2B	基本持平
模型总静态权重	1598B	744B	V4 ×2.15

六、五大核心权重差别（精简总结）

总静态存储体量差距巨大
V4-Pro总权重1598B，是GLM5.1（744B）的2.15倍；增量主体来自MoE专家池，同时包含V4独有的mHC稠密层参数。
MoE专家池是两者最核心分水岭
V4每层384个大尺寸专家，GLM仅256个小专家；单专家参数、单层专家总参数、全模型专家总参数全部呈翻倍级差距，V4静态知识存储上限更高。
V4独有mHC稠密权重
GLM无流形约束超连接模块，V4每层额外携带0.1536B稠密参数，会增加单层加载IO与基础显存占用。
稠密辅助模块GLM整体略大
Embedding、输出头、全局归一化、全量注意力总参数GLM全部高于V4；GLM依靠78层更深网络弥补稠密表达能力，V4依靠超大MoE池扩充知识容量。
磁盘存储与IO硬件需求完全不同

GLM：默认FP16分发，单层文件小、加载轮次多，单次IO带宽压力低；
V4-Pro：FP4专家+FP8稠密混合量化，同等硬件下磁盘占用更小，但FP16裸盘单层文件体积巨大，对单机带宽、显存容量要求更高。

纯推理前向链路：权重是否会跨节点复用（不考虑显存驻留，只看计算会不会调用）

核心规则

每一层Transformer的权重完全独立、互不通用：
第0层所有参数（注意力、mHC、本层384个专家、本层门控、本层共享专家），只在计算第0层特征时使用；
计算第1层、第2层……第60层时，永远不会再调取第0层的任何专家/权重。
同理：第N层的全部专家、门控、注意力权重，仅处理当前层输入时生效，上层、下层计算完全用不到它。

分模块逐条说明（DeepSeek V4-Pro推理 Input→Output）

1. 全局共享权重（整条推理链路从头到尾，每一步token生成都会反复调用，所有层通用）

这些权重不绑定某一层，每一轮token生成全程反复使用：

Embedding 嵌入权重：每一个输入/生成token都要映射向量，全程复用
全局输入RMS Norm：嵌入后统一归一，每轮必用
末尾Final Norm：61层全部走完后归一，每一步生成token都调用
LM Head输出投影：每一步预测词表概率，全程复用

2. 单层Transformer专属权重（仅当前层节点使用，走完该层就不再调用，其他层完全用不上）

每层独立一套，层与层之间完全隔离：
以第k层举例：

层前置/后置Norm：只处理第k层输入输出，k+1层不用
CSA+HCA多头注意力权重：仅第k层内部计算注意力，别的层不调用
mHC矩阵：仅第k层特征变换，其他层无关
Router路由门控：只给第k层token做专家分配，下层不用
本层1个共享专家FFN：仅计算第k层的token特征，第k+1层有自己独立的共享专家
本层384个路由专家全集：只服务当前第k层
- 第一层的任意专家，计算完第一层特征后，第二层、第三层……全程再也不会调用该专家权重；
- 第二层有自己独立的384个专家池，和第一层专家完全分开、互不复用。

3. MTP模块权重（推理全程任何节点都不会调用）

常规文本生成推理链路完全不使用，所有层、所有计算节点都不会触发。

举直白例子

输入token依次经过 Layer0 → Layer1 → Layer2 … → Layer60

计算Layer0时：加载/使用Layer0全套专家、注意力；Layer0计算完成，后续Layer1~60的计算流程再也不会碰Layer0任何专家权重；
计算Layer1时：只启用Layer1专属专家、注意力，第一层专家完全闲置；
每一层的专家都是“一次性节点耗材”：只在自己这一层的计算节点生效，跨层无复用。

极简总结

嵌入、全局输入Norm、末尾Norm、输出Head：整条推理链路全程反复使用；
每一层Transformer的注意力、mHC、门控、本层所有专家（共享+384路由专家）：仅当前层节点使用，过了这一层之后，后续所有节点都不会再用到这套权重；
MTP：推理全程所有节点均不使用。

核心结论所有权重训练全周期全程参与计算；推理阶段分两类：固定常驻权重、可选关闭不加载权重。

一、全生命周期（训练+推理，每一步都必须加载、全程使用）

全局Embedding词嵌入权重
全局输入前置RMS Norm
全部61层Transformer内所有子模块权重（每层全程参与）
- 层前置/后置Norm
- CSA+HCA混合注意力全套
- mHC流形约束矩阵
- MoE路由门控Router
- 每层共享专家FFN（每token固定激活，全程生效）
- 384个路由专家静态权重池（存储常驻，按需调取）
输出LM Head预测权重
末尾Final Norm归一化权重

二、仅训练阶段全程使用，推理可选择不加载、不用的权重

MTP多Token预测模块整套权重

训练阶段：必须启用，同步做多token损失计算，全程参与迭代；
推理上线时：可直接跳过加载该模块，不影响基础文本生成，完全不用这部分权重，节省磁盘IO与显存。

补充区分：静态存储权重 vs 推理激活权重

上面所有模块都是磁盘静态权重，加载时全部读取进显存；
MoE里384个路由专家静态权重常驻显存，但单次推理只激活6个路由专家做计算，其余378个专家权重只是存在显存里、不参与前向运算，属于“加载常驻，但不实时计算”。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

ChatGPT-5.5代码生成实测：ProgramBench零源码盲写程序首关告破

AI Agent技术社区

AI Agent正在改变软件开发流程：从代码编写到业务协作的新探索

AI Agent可以理解为具备一定自主执行能力的智能系统。与传统聊天机器人不同，它不仅能够回答问题，还能够根据目标规划任务、调用工具、处理数据，并完成一系列连续操作。例如，当开发者提出“创建一个用户管理模块”时，AI Agent不仅可以生成基础代码，还能够分析数据库结构、设计接口、生成测试用例，并给出部署建议。这种能力让开发过程中的许多重复性工作得到了优化。