🔷 DeepSeek V1(2023年11月)——奠基之作

DeepSeek-LLM 系列于 2023 年 11 月发布,有 7B 和 67B 两种参数规模,分别提供 Base 和 Chat 两个版本。[1]

架构特点:
第一代 DeepSeek 模型本质上与 Llama 相同,是密集型(Dense)纯解码器 Transformer架构。[1]V1 使用密集 Transformer 堆叠,上下文窗口为 4K tokens,训练数据约为 2 万亿 tokens。[3]

核心局限: 密集架构意味着推理时所有参数都被激活,计算成本高,扩展性受限。


🔷 DeepSeek V2(2024年5月)——两大核心创新

V2 是一个强大的 MoE 语言模型,共有 236B 个参数,每个 token 激活其中 21B,支持 128K 的上下文长度。V2 采用了两大创新架构:Multi-head Latent Attention(MLA)DeepSeekMoE。MLA 通过将 KV 缓存压缩为潜在向量来保证高效推理,DeepSeekMoE 则通过稀疏计算以经济的成本训练强大模型。[3]

创新一:MLA(多头潜在注意力)

DeepSeek 为 V2 设计了名为 Multi-head Latent Attention(MLA)的创新注意力机制。MLA 配备了低秩键值联合压缩,不仅性能优于标准 MHA,而且所需的 KV 缓存量显著减少。[1]

MLA 的核心思想是将 key 和 value 张量压缩到低维空间后存入 KV 缓存,推理时再将这些压缩张量投影回原始大小。这会增加一次额外的矩阵乘法,但大幅减少了内存占用。[8]

创新二:DeepSeekMoE(混合专家架构)

DeepSeekMoE 有两个核心理念:将专家细化分割以实现更高的专业化和更精确的知识获取;以及隔离部分共享专家,以减少路由专家之间的知识冗余。[1]


🔷 DeepSeek V3(2024年12月)——规模与效率的飞跃

V3 将总参数量扩展到 671B,每个 token 激活约 37B 参数,采用 256 个专家的 MoE 布局(每个 token 激活 6 个专家),训练数据约 14 万亿 tokens。[3]

V3 在继承 V2 的 MLA 和 MoE 基础上,新增了两大关键改进:

改进一:无辅助损失的负载均衡(Auxiliary-Loss-Free Load Balancing)

V2 引入了三种辅助损失来避免路由崩溃,但这些辅助损失会对模型质量产生负面影响——为了"平衡"而将 token 路由给不合适的专家。因此,V3 完全去掉了这些辅助损失,转而为门控值引入一个偏置项。这个偏置项只用于路由,不纳入总损失计算,只有当对应专家过载或欠载时才手动调整,使负载均衡目标与质量优化目标不再相互竞争。[2]

改进二:多 Token 预测(Multi-Token Prediction, MTP)

在 V2 的 DeepSeekMoE 和 MLA 架构基础上,V3 的新特性包括无辅助损失的负载均衡多 Token 预测(MTP)[7]

改进三:FP8 精度训练

面对算力限制,V3 通过采用更激进的 MoE 和 FP8 精度训练来利用规模定律。[2]V3 仅使用 280 万 H800 GPU 小时完成训练,约为同等性能的 Llama 3.1 405B 的十分之一。[6]


🔷 DeepSeek V4(2026年4月 Preview)——新一代架构跃升

2026 年 4 月 24 日,DeepSeek 在 Hugging Face 发布了 V4-Pro 和 V4-Flash 预览模型。这是一个 1.6 万亿参数的开源模型,在 SWE-bench Verified 上得分 80.6%。[3]

V4 分为两个主要版本:V4-Pro 有 1.6 万亿总参数,激活参数为 490 亿;V4-Flash 有 2840 亿总参数,激活参数为 130 亿。两个模型均支持 100 万 token 的上下文窗口。[6]

架构核心创新:

① 混合稀疏注意力(CSA + HCA)

V4 最大的架构转变是引入了全新的混合注意力系统[4]V4 的混合注意力架构结合了压缩稀疏注意力(CSA)重度压缩注意力(HCA),以降低长上下文推理的计算成本。[3]

② 流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)

V4 引入了流形约束超连接(mHC),这是一种连接网络各层的新方式,使模型能够在超长代码库或文档中追踪上下文。[1]mHC 结合 Muon 优化器的稳定性保证,使 DeepSeek 能够在 33 万亿 tokens 上完成训练而不出现梯度崩溃。[3]

③ Muon 优化器

V4 在预训练中采用 Muon 优化器,相比标准 AdamW 具有更快的收敛速度和更强的稳定性。在 1.6 万亿参数规模下,训练不稳定性会快速累积,Muon 正是解决这一问题的关键。[3]


📊 四代架构对比总结

版本 参数规模 架构类型 上下文长度 核心创新
V1 7B / 67B 密集 Transformer 4K 基线模型,类 Llama 结构
V2 236B总/21B激活 MoE + MLA 128K MLA(KV缓存压缩)+ DeepSeekMoE
V3 671B总/37B激活 MoE + MLA 128K 无辅助损失负载均衡 + MTP + FP8训练
V4 1.6T总/49B激活 MoE + CSA/HCA + mHC 1M 混合稀疏注意力 + 超连接 + Muon优化器

整体来看,DeepSeek 的演进路线清晰:V1 确立基础 → V2 引入 MoE+MLA 奠定高效推理框架 → V3 在规模和训练策略上精细优化 → V4 在超长上下文和训练稳定性上实现代际突破,且始终贯穿"以更低成本达到更高性能"的核心理念。


  1. DeepSeek V3.2 vs V4 - What Changes With a Trillion Parameters | Awesome Agents
  2. DeepSeek V4 Architecture: Hyper‑Connections Explained
  3. DeepSeek - Wikipedia
  4. DeepSeek-V2: A Strong, Economical, and Efficient
  5. DeepSeek v3 and R1 Model Architecture: Why it’s powerful and economical
  6. DeepSeek V4 — Next-Generation AI Model Architecture
  7. DeepSeek vs. OpenAI: What is DeepSeek? What does it do? | Mindflow Blog
  8. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
  9. DeepSeek Official Models List 2026 (V4, Flash, Pro) | DeepSeek V4 Network
  10. DeepSeek V4-Pro Review: Benchmarks, Pricing & Architecture
  11. DeepSeek Models: V3.2, R1, Distills, and Production Caveats
  12. [2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
  13. The Complete Guide to DeepSeek Models: V3, R1, V4 and Beyond
  14. DeepSeek V4 Guide: Engram Memory, Training Data Strategy & Release Status (2026)
  15. The Anatomy of DeepSeek. A Deep Dive into the MoE
  16. DeepSeek MoE and V2 - by Austin Lyons - Chipstrat
  17. DeepSeek V4 vs V3: The Ultimate 2026 AI Model Comparison
  18. DeepSeek V4: What’s Next — Architecture, DSA, Engram & More | Deep Seek AI
  19. Part 2: Breaking Down DeepSeek’s Model Architecture | by Protégé IGDTUW | Medium
  20. Mixture-of-Experts (MoE) LLMs - by Cameron R. Wolfe, Ph.D.
  21. DeepSeek Models Guide: R1, V3, and Coder | InsiderLLM
  22. DeepSeek V4 MoE Architecture Analysis: Million-Token Context vs. Huawei Ascend Infrastructure for Efficient AI Inference
  23. How has DeepSeek improved the Transformer architecture? | Epoch AI
  24. DeepSeek-V3 Technical Report DeepSeek-AI research@deepseek.com Abstract
  25. DeepSeek is open-access and the next AI disrupter for radiology
  26. DeepSeek Improvement on Transformers Yongge Wang (UNC Charlotte)
  27. Deepseek 4 Official Papers Overview: Deepseek MoE, MLA, MTP, Distillation | by Joyce Birkins | Medium
  28. A Technical Tour of the DeepSeek Models from V3 to V3.2
Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐