Transformer大模型自学指南：小白也能轻松入门收藏必备！

编程唐小宝

346人浏览 · 2026-03-23 14:42:12

编程唐小宝 · 2026-03-23 14:42:12 发布

本文详细介绍Transformer模型的编码器-解码器架构，深入解析自注意力机制、多头注意力机制、位置编码、残差归一化等核心技术。通过实际案例，帮助读者理解Transformer如何捕捉序列中的长距离依赖，并探讨其在自然语言处理和计算机视觉领域的应用。此外，文章还介绍了Transformer的变体架构，如BERT、GPT等，为初学者提供全面的入门路线图。

1. transformer结构

Transformer 模型是一种基于注意力机制的深度学习模型，最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。Transformer 彻底改变了自然语言处理（NLP）领域，并逐渐扩展到计算机视觉（CV）等领域。Transformer 的核心思想是完全摒弃传统的循环神经网络（RNN）结构，仅依赖注意力机制来处理序列数据，从而实现更高的并行性和更快的训练速度。

编码器-解码器架构

Transformer 模型由编码器和解码器两部分组成：

编码器：将输入序列转换为一系列隐藏表示。每个编码器层包含一个自注意力机制和一个前馈神经网络。
解码器：根据编码器的输出生成目标序列。每个解码器层包含两个注意力机制（自注意力和编码器-解码器注意力）和一个前馈神经网络。

Encoder block由6个encoder堆叠而成，图中的一个框代表的是一个encoder和decoder的内部结构。一个Encoder是由Multi-Head Attention和前馈神经网络 Feed Forward Network构成，一个decoder由Mask Multi-Head Attention, Cross Multi-Head Attention以及前馈神经网络构成。

如下图所示：

让我们将模型视为一个单一的黑盒。在机器翻译应用中，它会输入一个句子，并输出另一个语言的翻译。

2. 编码器

编码器由6个相同的模块堆叠而成，每层包含两个子层：

**多头自注意力机制（Multi-Head Self-Attention）：**计算输入序列中每个词与其他词的相关性。
**前馈神经网络（Feed-Forward Neural Network）：**对每个词进行独立的非线性变换。

每个子层后面都接有残差连接（Residual Connection）和层归一化（Layer Normalization）。

2.1 自注意力机制

请将以下句子作为我们要翻译的输入句子：

The animal didn’t cross the street because it was too tired

“it” 在这个句子中指的是什么？是街道还是动物？对人类可以判断”it“指代动物，但对算法来说却不是那么简单。

当模型处理到单词“it”时，自注意力允许它将“it”与“animal”联系起来。当模型处理输入序列中的每个词（每个位置）时，自注意力机制允许它查看输入序列中的其他位置，以寻找有助于更好地编码该词的线索。

自注意力的作用：随着模型处理输入序列的每个单词，自注意力会关注整个输入序列的所有单词，帮助模型对本单词更好地进行编码。在处理过程中，自注意力机制会将对所有相关单词的理解融入到我们正在处理的单词中。更具体的功能如下：

序列建模：自注意力可以用于序列数据（例如文本、时间序列、音频等）的建模。它可以捕捉序列中不同位置的依赖关系，从而更好地理解上下文。这对于机器翻译、文本生成、情感分析等任务非常有用。
并行计算：自注意力可以并行计算，这意味着可以有效地在现代硬件上进行加速。相比于RNN和CNN等序列模型，它更容易在GPU和TPU等硬件上进行高效的训练和推理。（因为在自注意力中可以并行的计算得分）
长距离依赖捕捉：传统的循环神经网络（RNN）在处理长序列时可能面临梯度消失或梯度爆炸的问题。自注意力可以更好地处理长距离依赖关系，因为它不需要按顺序处理输入序列。

自注意力的结构如下所示：

自注意力机制允许模型在处理序列时，动态地为每个位置分配不同的权重，从而捕捉序列中任意两个位置之间的依赖关系。

输入表示：输入序列中的每个词（或标记）通过词嵌入（Embedding）转换为向量表示。
注意力权重计算：通过计算查询（Query）和键（Key）之间的点积，得到每个词与其他词的相关性权重。
加权求和：使用注意力权重对值（Value）进行加权求和，得到每个词的上下文表示。

公式为：

其中：

Q 是查询矩阵，K 是键矩阵，V 是值矩阵。
dk 是k向量的维度，用于缩放点积。经过Softmax处理后，同一词汇的不同维度下的概率差越大，即一个维度概率接近1，其余维度均接近0，这种情况会导致所有维度的梯度均趋近于0，造成梯度消失，模型难以进行优化学习。

详细解释Q、K、V：

Query (Q)：当前词对上下文的“提问”（主动查询信息）
Key（K)：每个词提供的“索引”（提供匹配依据）
Value (V)：每个词实际携带的信息（真正要传递的内容）

分离设计的意义：

允许模型在不同语义空间学习：
Q/K 空间：学习关系模式（如语法依赖）
V 空间：学习内容表示

通过分离Q、K、V，自注意力机制实现了灵活的上下文信息聚合，让每个词都能动态关注到序列中最重要的其他词

实际例子分析

句子：“The cat sat on the mat”，当处理单词 “sat” 时：

1.Query(“sat”)：寻找动作执行者和位置

2.Key匹配：

高匹配：cat (执行者), mat (位置)
低匹配：the (无实际意义)

3.Value组合：

z_sat = 0.6*v_cat + 0.3*v_mat + 0.1*v_others

最终 “sat” 的表示融合了关键关联词的信息，实现了上下文感知。

详细解析自注意力机制

第一步：获取查询向量、键向量和值向量

从每个编码器的输入向量（每个单词的词向量，即Embedding，可以是任意形式的词向量，比如说word2vec，GloVe，one-hot编码）中生成三个向量，即查询向量、键向量和值向量。（这三个向量是通过词嵌入与三个权重矩阵相乘后创建出来的）新向量在维度上往往比词嵌入向量更低。（512->64）

更一般的，将以上所得到的查询向量、键向量、值向量组合起来就可以得到三个向量矩阵Q、K、V。

第二步：计算得分

假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量，我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数是通过所有输入句子的单词的键向量与“Thinking”的查询向量相点积来计算的

第三步和第四步是将分数除以8(8是论文中使用的键向量的维数64的平方根，这会让梯度更稳定。这里也可以使用其它值，8只是默认值，这样做是为了防止内积过大。)，然后通过softmax传递结果。softmax的作用是使所有单词的分数归一化，得到的分数都是正值且和为1。

这个softmax得分决定了这个词在该位置的表达程度。显然，该位置的词将具有最高的softmax得分，但有时关注与当前词相关的另一个词也是有用的

第五步是将每个值向量乘以softmax分数(这是为了准备之后将它们求和)。这里的直觉是希望关注语义上相关的单词，并弱化不相关的单词(例如，让它们乘以0.001这样的小数)。

第六步是对加权值向量求和，然后即得到自注意力层在该位置的输出(在我们的例子中是对于第一个单词)。

自注意力的矩阵计算

第一步是计算查询、键和值矩阵。我们通过将嵌入打包到矩阵X中，并乘以我们训练好的权重矩阵（WQ，WK，WV）来实现这一点。

最后，由于我们处理的是矩阵，因此我们可以将步骤二至六合并为一个公式来计算自注意力层的输出。

2.2 多头注意力机制

为了捕捉更丰富的特征，Transformer 使用多头注意力机制。它将输入分成多个子空间，每个子空间独立计算注意力，最后将结果拼接起来。

多头注意力的优势：允许模型关注序列中不同的部分，例如语法结构、语义关系等。不同的头将独立学习，关注不同的语义特征。
并行计算：多个注意力头可以并行计算，提高效率。

具体的计算过程如下：

（1）Linear层：计算每个头的Q , K , V矩阵

思考：为什么不直接把Q , K , V矩阵按照维度分割成n份，而是通过权重矩阵映射？

如果直接分割为n份，那每一个头只能学习到原始信息分给它的那一小部分内容，每个头只能从局部信息中捕捉特征。而通过权重矩阵将维度从dmodel映射到dmodel/n，才是从全局信息中捕捉特征，之后将特征压缩存储至dmodel/n维的矩阵中，在此过程中，每个头设定的权重参数不同，捕捉到的特征也不相同，最终整体的“多头”才能捕捉到多样化的特征

（2）Scaled Dot_Prroduct Attention层：对每个头独立计算缩放点积注意力

（3）Concat层：将各个头拼接并融合

拼接操作Concat 只是将不同头的输出简单堆叠，各头信息相互独立，缺乏交互，而*WO*可以实现跨头特征融合，对各头的特征进行去冗余、降噪、增强关键信息等操作，实现了跨头信息交互；并且作为可学习的参数，也能够随着模型的反向传播进行优化，动态调整多头融合的权重。

总结整个流程：

整个流程输入向量的维度变化：


阶段	输入维度
编码器输入	(batch_size, seq_len, d_model)
Q, K, V	(batch_size, seq_len, d_model)
分头处理的Q，K，V	(batch_size,seq_len,d_model)->(batch_size, um_heads, seq_len, d_model/num_heads)
单个头的Z向量	(batch_size,num_heads, seq_len, d_model/num_heads)
拼接多头结果	(batch_size, seq_len, d_model)
W线性变换	(batch_size, seq_len, d_model)

问题：为什么使用多头注意力机制（Multi-Head Attention）而不是单头注意力？

增强模型的表达能力

单一注意力头：只能学习一种类型的依赖关系或模式（例如，只能关注局部信息或特定语法结构）。
多头注意力：每个头独立学习不同的注意力模式（如关注局部信息、长距离依赖、语法角色、关键词等）

提高学习效率

并行化计算：

多个头的计算可完全并行（每个头独立运行），充分利用 GPU 等硬件加速。

即使总计算量略高于单头，并行性仍显著提升训练速度。

可视化多头注意力

下图可视化两个注意力头。编码it一词时：

其中一个注意力头集中在The animal
另一个注意力头集中在tire上。

即形象解释it代指的是animal和tire。从某种意义上说，模型对单词“it”的表示融合了“动物”和“累”的部分表示。

下图可视化八个注意力头，一种颜色表示一个头attention score的分数，颜色越深表示attention score越大，可以看出，不同的头所关注的点各不相同。

2.3 位置编码

由于 Transformer 没有显式的序列信息（如 RNN 中的时间步），位置编码被用来为输入序列中的每个词添加位置信息。通常使用正弦和余弦函数生成位置编码：

其中：

位置编码的作用：

捕捉序列的顺序信息：自注意力机制本身不包含位置信息，它平等对待所有位置的输入。位置编码通过为不同位置添加独特标识，使模型能够理解词语在序列中的相对位置。
表达相对位置关系：三角函数具有周期性特性，可以通过三角恒等式轻松推导出任意两个位置之间的相对关系，而不需要为每个可能的位置差训练单独参数。
无限长度支持：理论上，这种编码方式可以处理任意长度的序列，不受训练时最大序列长度的限制

为了理解单词顺序，Transformer为每个输入的词嵌入添加了一个向量，这样能够更好的表达词与词之间的顺序关系。词嵌入与位置编码相加，而不是拼接，他们的效率差不多，但是拼接的话维度会变大，所以不考虑。加法操作简单且有效，因为Transformer模型拥有了足够多的参数，使其能够理解被加法操作融合后的词义与位置信息。

为了让模型理解单词的顺序，我们添加了位置编码向量，这些向量的值遵循特定的模式。

2.4 残差&归一化

在经过多头注意力机制得到矩阵Z之后，并没有直接传入全连接神经网络，而是经过了一步Add&Normalize

Add & Norm 层由 Add 和 Norm 两部分组成，其计算公式如下：

其中X表示Multi-Head Attention或者Feed Forward的输入，MultiHeadAttention(X) 和 FeedForward(X) 表示输出 (输出与输入 X 维度是一样的，所以可以相加)。

Add，就是在z的基础上加了一个残差块X，加入残差块的目的是为了防止在深度神经网络的训练过程中发生退化的问题。

Normalize

归一化目的：

1、加快训练速度

2、提高训练的稳定性

transformer使用到的归一化方法是Layer Normalization。

BatchNorm是对一个batch-size样本内在同一特征维度做归一化，会跨样本做归一化。

BN对不同样本同一通道内的特征进行归一化，BatchNorm后不同图片的同一通道的特征是可比较的，或者说A图片的纹理特征和B图片的纹理特征是可比较的，模型就可以学习不同样本同一通道的差异性。
LayerNorm是对每个样本的所有特征做归一化，不会跨样本。

特征可比性：使同一样本不同语义维度的特征处于同一量级，具有可比性，模型可学习特征间交互。
训练稳定性：独立于 batch size，适用于序列建模和小批量场景。
灵活性：在动态输入（如可变长度序列）和深层网络中表现更优

BatchNorm和LayerNorm的公式如下：

Batch Normalization (BN)

核心思想：对每个特征通道，在整个 mini-batch 的样本上计算统计量。

公式（以全连接层为例）：

Layer Normalization (LN)

2.5 前馈神经网络

由两个全连接层和一个非线性激活函数（如 ReLU）组成。主要作用是接收自注意力层的输出，并对其进行进一步的非线性变换，以捕获更复杂的特征和表示。

第一层：将输入维度从 d_model（如 512）扩展到更高维度 d_f（如 2048），引入非线性变换，捕获复杂特征
第二层：将高维表示映射回 d_model 维度，保持与输入兼容性

全连接层的公式如下：

3. 解码器

解码器也由 6个层相同的模块堆叠而成，每层包含三个子层：

掩码多头自注意力机制（Masked Multi-Head Self-Attention）：计算输出序列中每个词与前面词的相关性（使用掩码防止未来信息泄露）。
编码器-解码器注意力机制（Encoder-Decoder Attention）：计算输出序列与输入序列的相关性。
前馈神经网络（Feed-Forward Neural Network）：对每个词进行独立的非线性变换。

包含两个 Multi-Head Attention 层。

第一个 Multi-Head Attention 层采用了 Masked 操作。
第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵进行计算，而Q使用上一个 Decoder block 的输出计算。
最后有一个 Softmax 层计算下一个单词的概率

3.1 Mask Multi-Head Attention

Decoder block 的第一个 Multi-Head Attention 采用了 Masked 操作，因为在翻译的过程中是顺序翻译的，即翻译完第 i 个单词，才可以翻译第 i+1 个单词。通过 Masked 操作可以防止第 i 个单词知道 i+1 个单词之后的信息。

Decoder预测：

第一步：是 Decoder 的输入矩阵和 Mask 矩阵，输入矩阵包含 “ I have a cat” (0, 1, 2, 3, 4) 五个单词的表示向量，Mask 是一个 5×5 的矩阵。在 Mask 可以发现单词 0 只能使用单词 0 的信息，而单词 1 可以使用单词 0, 1 的信息，即只能使用之前的信息

第二步：接下来的操作和之前的 Self-Attention 一样，通过输入矩阵X计算得到Q,K,V矩阵。然后计算Q和 K^T 的乘积Q*K^T 。

第三步：在得到Q*K^T 之后需要进行 Softmax，计算 attention score，我们在 Softmax 之前需要使用Mask矩阵遮挡住每一个单词之后的信息，遮挡操作如下：

得到 Mask Q*K^T 之后在 Mask Q*K^T 上进行 Softmax，每一行的和都为 1。但是单词 0 在单词 1, 2, 3, 4 上的 attention score 都为 0。

第四步：使用 Mask Q×K^T与矩阵 V相乘，得到输出 Z

第五步：通过上述步骤就可以得到一个 Mask Self-Attention 的输出矩阵Zi ，然后和 Encoder 类似，通过 Multi-Head Attention 拼接多个输出Zi，然后计算得到第一个 Multi-Head Attention 的输出Z，Z与输入X维度一样。

3.2 Cross Multi-Head Attention

Decoder block 第二个 Multi-Head Attention 变化不大，主要的区别在于其中 Self-Attention 的 K, V矩阵不是使用上一个 Decoder block 的输出计算的，而是使用 Encoder 的编码信息矩阵 C 计算的。

这样做的好处是在 Decoder 的时候，每一位单词都可以利用到 Encoder 所有单词的信息 (这些信息无需 Mask)。

设计的核心目的是将编码器的输入信息与解码器的生成信息进行跨序列对齐

信息交互方向

Q（Query）来自解码器：代表解码器已生成的序列（如翻译任务中已输出的单词），需要关注输入序列中哪些部分与当前生成内容相关。
K/V（Key/Value）来自编码器：代表输入序列的全局信息（如源语言句子的语义表示），提供上下文参考。

跨序列对齐

目标：在生成目标序列（如翻译结果）时，每个词需要与输入序列的特定位置建立关联（如英语句子中的主语对应中文的“他”）。
实现方式：通过Q与K的点积计算相关性，衡量解码器当前状态与编码器输入的匹配程度。

举例说明

机器翻译：编码器输入的句子是”我是一只猫“，解码器已生成单词“I am”，此时Q表示“I am”的语义向量，K/V表示输入句子所有词的编码。通过计算相关性，模型会关注输入中与“I am”相关的词，以便下次预测出的中文单词与已预测的中文能更流畅的衔接，从而生成正确的翻译

4. 输出层

需要一个线性层（Linear）变换给目标词汇打分，然后使用Softmax对所有分数归一化，从而找出下一个token的概率分布，概率最高的就是要输出的token。

假设输入序列长度为 seq_len，批量大小为 batch_size，模型隐藏层维度为 d_model，目标词汇表大小为 vocab_size，则各阶段维度变化如下


阶段	输入维度	输出维度	操作说明
解码器输出	(batch_size, seq_len, d_model)	-	经过解码器后的输出状态
Linear层	(batch_size, seq_len, d_model)	(batch_size, seq_len, vocab_size)	映射到词汇表空间
Softmax层	(batch_size, seq_len, vocab_size)	(batch_size, seq_len, vocab_size)	转换为概率分布

需要一个线性层（Linear）变换给目标词汇打分，然后使用Softmax对所有分数归一化，从而找出下一个token的概率分布，概率最高的就是要输出的token（即生成的下一个单词）。

5. 训练和推理过程

模型训练阶段：解码器将真实标签作为输入
模型推理阶段：解码器将已预测的词汇作为输入

（1）训练阶段

transformer在训练阶段的目标是计算模型预测结果与真实结果之间的损失值，再根据反向传播优化参数。transformer会在训练阶段将真实结果作为解码器的输入，并通过掩码（Mask）确保在预测第 i 个词的时侯模型仅能看到前 i 个词。

由于在训练阶段，直接将真实结果作为输入，所以transformer在训练阶段可以使用并行算法，一次性就把所有目标单词都预测出来。这样做有两个好处，

是并行计算能够加快网络的训练速度；
在训练过程中直接投喂给解码器正确的结果而不是上一时刻的预测值（因为训练时上一时刻的预测值可能是错误的），可以让训练更快收敛。

下图以翻译任务（将英文 “Are you ok?” 翻译为中文，真实结果为“你还好吗？”，模型预测结果“你干什么？”）为例，说明transformer在训练阶段的流程：

注：实际上，transformer在训练阶段将真实结果的每一个词汇经过词嵌入形成一个词向量，之后将所有词向量拼接为一个矩阵,实现一次性输入；通过Mask矩阵实现一次性掩码；最终输出矩阵的每一行对应着一个预测词汇的概率分布，预测的一系列词汇通过该概率矩阵一次性生成（即并行计算通过矩阵实现）

（2）推理阶段

transformer在推理阶段为逐词生成，即每一次根据编码器的输入和已预测的输出推理出下一个词汇。其中，模型的输出会拼接到下一次解码器的输入中，这种操作称为 “自回归”（使用自回归进行推理的原因见交叉注意力机制）

注：输入标志start表示模型开始推理，输出标志end表示模型推理结束。

Transformer 的优势

并行计算：Transformer 可以同时处理整个输入序列，充分利用现代硬件的并行计算能力。
长距离依赖：自注意力机制能够捕捉序列中任意两个位置之间的依赖关系，解决了 RNN 的梯度消失问题。
可扩展性：Transformer 模型可以通过堆叠更多的层来提升性能，例如 BERT 和 GPT 等模型。

Transformer的应用

自然语言处理（NLP）：

机器翻译（如 Google Translate）
文本生成（如 GPT 系列模型）
文本分类、问答系统等。

计算机视觉（CV）：

图像分类（如 Vision Transformer）
目标检测、图像生成等

多模态任务：

结合文本和图像的任务（如 CLIP、DALL-E）

transformer的变体架构

encoder-decoder类型适用于序列到序列任务，比如翻译和文本总结等
encoder-only类型适合对文本内容进行分析、分类：例如bert模型，CV中用ViT模型对图像分类

仅编码器架构的输出是一个固定长度的向量表示，由于其能够提取全局上下文信息，适合对输入文本进行分类或标注，例如文本分类、情感分析、命名实体识别等任务表现出色。

BERT通过使用掩码语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）两种预训练任务，能够学习到双向的上下文信息

decoder-only，如内容生成类（对话，续写等），例如ChatGPT。

decoder-only模型能够生成内容，关键在于：大规模预训练：Decoder-Only模型首先在大量的文本数据上进行无监督预训练。在这个过程中，模型学习到如何预测给定上下文后的下一个词，这不仅让模型学会了语言的语法、语义规则，还让它能够理解文本中的长期依赖关系。这种预训练使模型具备了对新输入的理解能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

Dify 接入蓝耘 MaaS：基于智能客服分流模板搭建一个客服助手

AI Agent技术社区

2026年企业级大模型API聚合平台选型指南：协议兼容、稳定性与治理能力深度解析

因此，在企业级场景下，选择合适的API聚合平台已经不再只是采购问题，而是一项长期架构决策。| 平台| 模型覆盖规模 | 协议兼容能力| 生产稳定性| 企业管理能力| 成本管理特点| 适用场景|| 星链4SAPI| 480+| OpenAI、Anthropic、Gemini原生兼容 | 企业级可用性设计 | 多账号、审计、额度管理 | 提供细粒度Token统计 | 多模型生产环境|