（三）DeepSeek v2 原理

沐自礼

173人浏览 · 2026-06-01 17:19:43

沐自礼 · 2026-06-01 17:19:43 发布

论文标题：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
论文地址：https://arxiv.org/pdf/2405.04434
Github地址：https:////github.com/deepseek-ai/DeepSeek-V2

DeepSeek V2的改进点：

1.集成DeepSeek v1，并改进: 由GQA迭代为MLA, 减少93.3%的KV缓存.

2.集成DeepSeek Moe，并改进：多了通信平衡损失和令牌丢弃等策略。

两种技术带了DeepSeek-v2强大性能，高效的推理吞吐量。

一、MLA

是一种类似秩压缩的注意力机制。

MHA需要保存N个头的K,V缓存，效果好；

GQA保存M个组的K,V缓存，效果较好；

MQA保存一个头的K,V缓存，效果一般；

MLA则是将 Key-Value (KV) 缓存压缩为潜在向量，使用时进行映射，效果好。

1.1 MHA结构

为了方便计算，每次都需要保存K-V缓存。

1.2 MLA结构

为了减少K-V缓存，采用低秩键值联合压缩（对键与值进行低秩联合压缩来减少KV缓存）， $W^{DQ}$ 中D是降维， $W^{UQ}$ 中U是升维。

公式40中 QUERY 由 $q_{t,i}^{C}$ 和 $q_{t,i}^{R}$ 两部分组成

$q_{t,i}^{C}$ 可以理解为先降维得到Query的压缩隐向量，然后升维，

$q_{t,i}^{R}$ 为降维+位置rope。

公式44中 KEY 由 $k_{t,i}^{C}$ 和 $k_{t}^{R}$ 两部分组成，

$k_{t,i}^{C}$ 可以理解为先降维得到K和V的压缩隐向量，然后升维，

$k_{t}^{R}$ 为位置rope。

公式45中 VALUE 等于 $v_{t}^{C}$ ，可以理解为先降维得到K和V的压缩隐向量，然后升维。

当前只需要保留上图蓝色框住的两个向量就能映射多个K,V，避免缓存K-V对，减少显存占用。

$q_{t,i}^{T}k_{j,i}$ 中涉及的 $W^{UQ}$ * $W^{UK}$ 可以提前计算好。

$u_{t}$ 涉及的 $W^{UV}$ * $W^{O}$ 可以提前计算好。

基于矩阵乘法结合律,因此无需为每个查询单独计算键与值。通过此优化,我们避免了在推理过程中重新计 $k_{t}^{C}$ 和 $v_{t}^{C}$ 带来的计算开销。

下图和上面的公式能一一对应。

二、Moe

采用DeepSeekMoE架构(Dai等人,2024),该架构通过细粒度专家分割和共享专家隔离,为专家专业化提供了更高潜力。

moe原理、专家级平衡损失、设备级平衡损失可以参考：DeepSeekMoE 原理-CSDN博客

2.1 通信平衡损失

2.2 Token-dropping strategy

三、整体架构、量化和精度优化等

推理效率。为高效部署DeepSeek‐V2提供服务,我们首先将其参数转换为FP8精度。此外,我们还对DeepSeek‐V2实施KV缓存量化(Hooper等人,2024;Zhao等人,2023),将其KV 缓存中每个元素进一步平均压缩至6比特。

HAI‐LLM框架

16路zero-bubble流水线并行

8路专家并行

ZeRO-1 数据并行

FlashAttention-2

四、参考

https://www.bilibili.com/video/BV1BYXRYWEMj?spm_id_from=333.788.videopod.sections&vd_source=d822e911a2ea10d2b0720afa70f0c357

Deepseek-V2技术报告解读！全网最细！-腾讯云开发者社区-腾讯云

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

世界模型年薪250万仍缺人，可你的AI连翻转都算不准——2026下半年最该补的不是新框架是这条公理

本文指出当前AI Agent缺乏物理公理致旋转仿真/流体外推失效；《旋生万物》从"退化圆"出发构建旋子代数与螺旋联络统一旋转、平移及物理定律，为世界模型提供几何先验；《圆道与螺旋系列丛书》（22部·300万字·公理I²=-N）覆盖螺旋数论至生成式AI提示工程。适合Java/Python/嵌入式/算法工程师构建不可替代竞争力。下载：https://doi.org/10.5281/zenodo.20

AI Agent技术社区

AI Agent评估体系构建：从Benchmark到生产环境监控的闭环工程

text## 蒸馏的伦理与合规### 蒸馏的边界模型蒸馏涉及知识产权和合规问题：| 蒸馏来源 | 合规风险 | 建议 ||---------|---------|------|| 开源模型（Llama, Qwen） | 低 | 遵循模型许可证 || API 蒸馏（GPT, Claude） | 高 | 违反 ToS，禁止 || 自有模型 | 无 | 完全合规 || 多模型混合蒸馏 | 中 | 需逐一

AI Agent技术社区

AI Agent评估体系构建：从Benchmark到生产环境监控的闭环工程

Agent 的行为是多步骤、非确定性的——同一个输入可能产生完全不同的执行路径，最终结果也可能"殊途同归"。更复杂的是，Agent 的失败模式往往是隐蔽的：它可能完成了任务但使用了低效的路径，或者得到了正确答案但基于错误的推理。本文将系统性地构建一个从开发到生产的 Agent 评估体系，涵盖离线 Benchmark、在线监控和持续改进的完整闭环。最重要的是：评估体系本身也需要持续迭代——随着 Ag