【LLM】Deepseek

版本参数规模架构类型上下文长度核心创新V17B / 67B密集 Transformer4K基线模型，类 Llama 结构V2236B总/21B激活MoE + MLA128KMLA（KV缓存压缩）+ DeepSeekMoEV3671B总/37B激活MoE + MLA128K无辅助损失负载均衡 + MTP + FP8训练V41.6T总/49B激活1M混合稀疏注意力 + 超连接 + Muon优化器。

Wanderer X

421人浏览 · 2026-05-19 11:28:08

Wanderer X · 2026-05-19 11:28:08 发布

🔷 DeepSeek V1（2023年11月）——奠基之作

DeepSeek-LLM 系列于 2023 年 11 月发布，有 7B 和 67B 两种参数规模，分别提供 Base 和 Chat 两个版本。[1]

架构特点：
第一代 DeepSeek 模型本质上与 Llama 相同，是密集型（Dense）纯解码器 Transformer架构。[1]V1 使用密集 Transformer 堆叠，上下文窗口为 4K tokens，训练数据约为 2 万亿 tokens。[3]

核心局限： 密集架构意味着推理时所有参数都被激活，计算成本高，扩展性受限。

🔷 DeepSeek V2（2024年5月）——两大核心创新

V2 是一个强大的 MoE 语言模型，共有 236B 个参数，每个 token 激活其中 21B，支持 128K 的上下文长度。V2 采用了两大创新架构：Multi-head Latent Attention（MLA） 和 DeepSeekMoE。MLA 通过将 KV 缓存压缩为潜在向量来保证高效推理，DeepSeekMoE 则通过稀疏计算以经济的成本训练强大模型。[3]

创新一：MLA（多头潜在注意力）

DeepSeek 为 V2 设计了名为 Multi-head Latent Attention（MLA）的创新注意力机制。MLA 配备了低秩键值联合压缩，不仅性能优于标准 MHA，而且所需的 KV 缓存量显著减少。[1]

MLA 的核心思想是将 key 和 value 张量压缩到低维空间后存入 KV 缓存，推理时再将这些压缩张量投影回原始大小。这会增加一次额外的矩阵乘法，但大幅减少了内存占用。[8]

创新二：DeepSeekMoE（混合专家架构）

DeepSeekMoE 有两个核心理念：将专家细化分割以实现更高的专业化和更精确的知识获取；以及隔离部分共享专家，以减少路由专家之间的知识冗余。[1]

🔷 DeepSeek V3（2024年12月）——规模与效率的飞跃

V3 将总参数量扩展到 671B，每个 token 激活约 37B 参数，采用 256 个专家的 MoE 布局（每个 token 激活 6 个专家），训练数据约 14 万亿 tokens。[3]

V3 在继承 V2 的 MLA 和 MoE 基础上，新增了两大关键改进：

改进一：无辅助损失的负载均衡（Auxiliary-Loss-Free Load Balancing）

V2 引入了三种辅助损失来避免路由崩溃，但这些辅助损失会对模型质量产生负面影响——为了"平衡"而将 token 路由给不合适的专家。因此，V3 完全去掉了这些辅助损失，转而为门控值引入一个偏置项。这个偏置项只用于路由，不纳入总损失计算，只有当对应专家过载或欠载时才手动调整，使负载均衡目标与质量优化目标不再相互竞争。[2]

改进二：多 Token 预测（Multi-Token Prediction, MTP）

在 V2 的 DeepSeekMoE 和 MLA 架构基础上，V3 的新特性包括无辅助损失的负载均衡和多 Token 预测（MTP）。[7]

改进三：FP8 精度训练

面对算力限制，V3 通过采用更激进的 MoE 和 FP8 精度训练来利用规模定律。[2]V3 仅使用 280 万 H800 GPU 小时完成训练，约为同等性能的 Llama 3.1 405B 的十分之一。[6]

🔷 DeepSeek V4（2026年4月 Preview）——新一代架构跃升

2026 年 4 月 24 日，DeepSeek 在 Hugging Face 发布了 V4-Pro 和 V4-Flash 预览模型。这是一个 1.6 万亿参数的开源模型，在 SWE-bench Verified 上得分 80.6%。[3]

V4 分为两个主要版本：V4-Pro 有 1.6 万亿总参数，激活参数为 490 亿；V4-Flash 有 2840 亿总参数，激活参数为 130 亿。两个模型均支持 100 万 token 的上下文窗口。[6]

架构核心创新：

① 混合稀疏注意力（CSA + HCA）

V4 最大的架构转变是引入了全新的混合注意力系统。[4]V4 的混合注意力架构结合了压缩稀疏注意力（CSA） 和重度压缩注意力（HCA），以降低长上下文推理的计算成本。[3]

② 流形约束超连接（Manifold-Constrained Hyper-Connections, mHC）

V4 引入了流形约束超连接（mHC），这是一种连接网络各层的新方式，使模型能够在超长代码库或文档中追踪上下文。[1]mHC 结合 Muon 优化器的稳定性保证，使 DeepSeek 能够在 33 万亿 tokens 上完成训练而不出现梯度崩溃。[3]

③ Muon 优化器

V4 在预训练中采用 Muon 优化器，相比标准 AdamW 具有更快的收敛速度和更强的稳定性。在 1.6 万亿参数规模下，训练不稳定性会快速累积，Muon 正是解决这一问题的关键。[3]

📊 四代架构对比总结

版本	参数规模	架构类型	上下文长度	核心创新
V1	7B / 67B	密集 Transformer	4K	基线模型，类 Llama 结构
V2	236B总/21B激活	MoE + MLA	128K	MLA（KV缓存压缩）+ DeepSeekMoE
V3	671B总/37B激活	MoE + MLA	128K	无辅助损失负载均衡 + MTP + FP8训练
V4	1.6T总/49B激活	MoE + CSA/HCA + mHC	1M	混合稀疏注意力 + 超连接 + Muon优化器

整体来看，DeepSeek 的演进路线清晰：V1 确立基础 → V2 引入 MoE+MLA 奠定高效推理框架 → V3 在规模和训练策略上精细优化 → V4 在超长上下文和训练稳定性上实现代际突破，且始终贯穿"以更低成本达到更高性能"的核心理念。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

想要转型AI Agent开发？现在开始学，还不晚

用 @tool 装饰器定义工具@tool"""搜索互联网获取实时信息。当需要最新数据时使用此工具。"""# 实际接入 Tavily / Serper 等搜索 APIreturnf"搜索结果：关于 {query} 的最新信息..."@tool"""计算数学表达式，如 '2 + 3 * 4'"""# 绑定工具到模型# 模型会自动决定是否调用工具response = llm_with_tools.inv