大模型时代全景图：从 GPT 到 Claude/DeepSeek，一文看懂 LLM 演进史

大模型演进与技术全景图本文系统梳理了大模型从2017年Transformer诞生到2026年的完整演进历程，揭示了当前大模型工程化的复杂技术栈。文章指出，大模型已从简单的API调用发展为包含训练、部署、应用的全链路基础设施，涉及模型选型、推理优化、成本控制等核心挑战。作者通过时间线展示了关键技术节点，包括GPT-3的Scaling Law、ChatGPT的RLHF突破，以及开源生态的崛起。本文作

像风一样自由2020

359人浏览 · 2026-05-26 19:13:32

像风一样自由2020 · 2026-05-26 19:13:32 发布

大模型时代全景图：从 GPT 到 Claude/DeepSeek，一文看懂 LLM 演进史

《大模型知识与部署》系列开篇 · 共 35 篇
适合人群：AI 工程师、后端开发、技术决策者
阅读时间：约 25 分钟

在这里插入图片描述

写在前面：为什么要做这个系列

2026 年的当下，如果你是一名工程师，大概率已经无法回避这样的对话：

产品经理：「咱们这个功能用 GPT-5 还是 Claude 4.7？」
老板：「成本太高，能不能换成开源的？DeepSeek V4 行不行？」
运维：「单卡跑不动 70B 啊，要不要上 vLLM？还是 SGLang？」
算法同学：「这个场景要不要微调？LoRA 够不够？」

每一个问题背后，都是一个完整的技术栈。

过去三年，大模型从「OpenAI 的 ChatGPT」一种形态，演化成今天这样：
6 家闭源巨头、十几个开源系列、上百个微调变体、五六个主流推理框架、十几种部署形态。一个普通的 AI 工程师，仅仅是"搞清楚现在都有什么"，就需要花费数周。

更麻烦的是，这个领域的知识衰减速度极快——半年前的最优实践，今天可能已经被淘汰；半年前红极一时的框架，今天可能已经被另一个框架"完全替代"。任何想认真做大模型工程化的人，都需要一份系统的、工程视角的、有判断的知识地图。

这就是我写这个系列的初衷。

《大模型知识与部署》系列共 35 篇，会从最基础的演进史、Transformer 架构，一路写到推理优化、分布式部署、Agent 应用、MoE 与推理模型等前沿话题。每一篇都按工程视角组织——少讲抽象理论，多讲落地决策，多讲踩坑经验。

而你正在读的这第一篇，是整个系列的全景图——读完它，你将得到：

一条清晰的大模型演进时间线
一张从训练到部署到应用的全链路技术地图
一份当下开源 vs 闭源的格局判断
一张后续 34 篇的导航图

我们开始。

一、为什么我们需要一份「全景图」

1.1 大模型已经不是"黑盒玩具"

2023 年初，大多数工程师对 LLM 的认知还停留在「调 OpenAI 的 API」。两年过去，情况发生了根本变化：

训练侧：开源权重唾手可得，从 0.5B 到 671B 一应俱全，LoRA 微调成本降到几百美元。
推理侧：vLLM、TGI、TensorRT-LLM、SGLang 等高性能引擎让一张 H100 能撑住几百 QPS。
应用侧：RAG、Agent、Tool Use、MCP 协议……让 LLM 真正"长出手脚"。

这意味着，大模型已经从"调用别人 API"变成了"自建基础设施"。一个完整的大模型工程栈，复杂度不亚于一套微服务系统，涉及到：

模型权重管理与版本控制
GPU 集群与显存调度
分布式推理与负载均衡
上下游的向量库、Agent 框架、可观测性
持续迭代的微调、对齐、评测流水线

这套栈的复杂度，超出了"AI 算法"一个岗位能涵盖的范围，注定要靠算法 + 工程 + 运维协同来落地。所以工程师必须懂——不止于 prompt，而是从训练到部署到应用的完整链路。

1.2 工程师面对的真实困境

把日常工作中常见的几类问题列出来，你就会理解为什么需要一份全景图：

困境类型	典型问题	知识需求
选型困境	用闭源 API 还是开源自部署？7B 够不够？要不要 MoE？	模型能力对比、参数规模认知、上下文需求
部署困境	vLLM 还是 SGLang？单卡还是多卡？TP 还是 PP？	推理框架对比、并行策略、显存计算
成本困境	H100 一卡难求，A100 够用吗？4090 能跑吗？	GPU 选型、量化技术、Continuous Batching
微调困境	业务效果不够，是要 RAG 还是微调？LoRA 还是全参？	RAG vs 微调决策、SFT 与 DPO 区别
应用困境	做 Agent 还是工作流？用 LangChain 还是自研？	Agent 架构、Tool Use、MCP 生态

每一类困境，单独拎出来都能写一本书。但碎片化地学，往往学完仍然不会做决策——因为缺一张"全景图"，看不到这些技术点彼此之间的位置关系。

1.3 信息半衰期：六个月

大模型领域最致命的一点：知识半衰期约为六个月。

2023 年的最佳推理框架是 TGI，2024 年是 vLLM，2025 年开始 SGLang 后来居上。
2023 年的微调王者是 LoRA，2024 年 QLoRA 几乎成为默认，2025 年 DPO 又替换了相当一部分 RLHF 流程。
2024 年还在卷参数规模（DeepSeek V3 671B），2025 年开始卷推理时间（o1/R1/Claude 4 Thinking）。

这就要求我们不能只学"当下的事实"，更要理解事实背后的逻辑与演进方向。这也是为什么本系列的开篇要花大力气讲演进史——搞清楚我们从哪里来，才能判断我们要到哪里去。

二、八年演进史：从 Transformer 到推理模型

2.1 时间线一览

2017 Transformer 论文 ────────────── 序列建模脱离 RNN
2018 GPT-1 / BERT ──────────────── 预训练-微调范式确立
2019 GPT-2 (1.5B) ──────────────── "太危险不敢开源"的传说
2020 GPT-3 (175B) ──────────────── Scaling Law 与 In-Context Learning
2022.11 ChatGPT 上线 ─────────── RLHF 让 LLM 走入大众
2023.02 LLaMA-1 开源 ────────── 开源大模型生态启动
2023.03 GPT-4 / Claude-1 ────── 多模态与 100K 上下文
2023.07 Llama 2 商用 ────────── 真正可商用的开源底座
2023 下半年 Qwen / DeepSeek 开源 ─ 中国开源力量入场
2024.03 Claude 3 ──────────── 200K 上下文,首次反超 GPT-4
2024.04 Llama 3 ─────────────── 开源逼近 GPT-4
2024.05 GPT-4o ─────────────── 端到端多模态
2024.09 o1 预览 ─────────────── Test-Time Scaling 新范式
2024.12 DeepSeek V3 (671B MoE) ── 极致性价比震动行业
2025.01 DeepSeek R1 开源 ───── 推理模型平民化
2025 上半年 Claude 4 / GPT-4.5 ─── 推理 + Agent 能力升级
2025.10 Haiku 4.5 ─────────── 小模型也能强推理
2026 当下 Claude Opus 4.7 / 1M 上下文 ── 进入"Agent + 长上下文"主战场

下面我们挑关键节点展开。

2.2 起点：Transformer 的诞生（2017）

2017 年 6 月，Google Brain 发表《Attention is All You Need》。这篇论文最大的工程贡献不是"提出了 attention 机制"（attention 此前已存在），而是抛弃了 RNN 的循环结构，让序列建模可以完全并行化。

工程意义有三点：

训练可以堆 GPU——RNN 时代单卡训不动大模型，Transformer 可以做大规模数据并行。
推理也能并行——后来推理优化中的 KV Cache、PagedAttention 都建立在 attention 的可重用性之上。
架构高度统一——CV、NLP、语音、多模态，最终都收敛到 Transformer 家族。

💡 这就是为什么本系列第 2 篇会专门写《一文读懂 Transformer》——它是后续所有内容的地基。

2.3 预训练范式确立（2018-2020）

Transformer 提出后，很快诞生了两条不同的路线：

BERT 路线（Encoder-only）：Google 提出，擅长理解类任务（分类、抽取）。
GPT 路线（Decoder-only）：OpenAI 提出，擅长生成类任务。

事后看，Decoder-only 赢得了一切。原因有二：自回归生成的统一性让 LLM 可以做几乎所有 NLP 任务；以及 GPT-3 引爆的 Scaling Law——只要参数足够大、数据足够多，模型能力会持续提升。

2020 年 GPT-3 发布时只有 175B 参数，却展示了惊人的 In-Context Learning 能力：不再需要微调，只要在 prompt 里给几个例子，模型就能学会。这一刻起，“prompt engineering” 成为新职业。

2.4 ChatGPT 引爆点（2022.11）

2022 年 11 月 30 日，ChatGPT 上线。两个月后，月活破亿，成为史上增长最快的消费级产品。

ChatGPT 的核心技术贡献是 RLHF（人类反馈强化学习）：用人类偏好数据训练一个奖励模型，再用 PPO 算法让 LLM 朝着"人类喜欢的回答"优化。这让 LLM 第一次从"会接话"变成"会对话"。

工程角度的影响：

对齐成为大模型工程的核心环节，"训练→对齐→部署"成为标准流水线。
API 调用从 to-dev 变成 to-everyone，倒逼了云推理服务的工程化。
AI 应用层出现：LangChain、LlamaIndex 等框架快速崛起。

2.5 群雄并起（2023）

2023 年是大模型历史上信息密度最高的一年：

3 月：GPT-4 发布，首次具备多模态（视觉理解）能力；同月 Anthropic 发布 Claude 1，提出"宪法 AI"对齐思路。
2 月：Meta 发布 LLaMA-1（仅研究用途），却被全网"魔改"，DIY 开源生态全面启动。
7 月：Llama 2 商用开源，真正点燃了开源大模型的产业落地。
下半年：阿里 Qwen、深度求索 DeepSeek、智谱 ChatGLM、零一 Yi、百川 Baichuan 集中发布。中国开源力量正式入场。

这一年留下的工程遗产至关重要：开源模型从此可以商用，自部署成为现实选项；上下文窗口从 4K 扩展到 100K（Claude 1），Long Context 工程问题开始受关注；多模态成为标配。

2.6 性能与成本双向奔赴（2024）

如果 2023 年是"卷能力"，2024 年就是"卷成本与可用性"：

Claude 3（3 月）：Opus 模型首次在多个评测中反超 GPT-4，且原生支持 200K 上下文。
Llama 3（4 月）：8B 模型超越上一代 70B，开源逼近闭源 SOTA。
GPT-4o（5 月）：原生端到端多模态，延迟降到人类对话级别（~300ms）。
DeepSeek V3（12 月）：671B MoE 模型仅用 557 万美元训练成本，直接重塑了行业对训练成本的认知。

工程意义：

上下文长度的军备竞赛：从 4K → 32K → 100K → 200K → 1M。这背后是 Flash Attention、YaRN、Ring Attention 等一系列推理优化技术。
MoE 架构成为主流：DeepSeek V3、Mixtral、Qwen MoE 都证明了稀疏激活可以在保持效果的同时大幅降低推理成本。
小模型崛起：Phi-3、Gemma、Qwen 2 的小尺寸版本展示了"端侧大模型"的可能性。

2.7 推理模型的拐点（2024 末 - 2025）

2024 年 9 月，OpenAI 发布 o1-preview，开启**推理模型（Reasoning Model）**新范式：

传统 LLM：一次性生成回答，依赖训练时学到的知识。
推理模型：先生成大段"内部思考链"，再给出最终答案，用推理时算力换准确率。

这就是 Test-Time Scaling——在推理阶段花更多 Token、更多时间，换更高质量的输出。

2025 年 1 月，DeepSeek R1 开源，让推理模型的训练方法（GRPO 算法 + 大规模 RL）公开化，平民化。Claude 4 系列、Gemini 2.5 也都加入了"思考模式"。

工程意义：

延迟模型重构：从"秒级响应"变成"分钟级深度思考"，需要新的工程架构（流式输出、异步任务、思考过程可见性）。
算力分配变化：训练算力占比下降，推理算力占比上升。
评测体系变化：基准从 MMLU 转向 AIME、SWE-Bench 等真正考察推理能力的任务。

2.8 当下：2026 年的格局

到 2026 年 5 月，主要趋势已经清晰：

1M 上下文成为标配：Claude Opus 4.7、Gemini 2.5 Pro 都支持 1M Token 上下文。
Agent 走向生产：Tool Use、Computer Use、MCP 协议成熟，Agent 真正开始替代部分人力工作。
多模态原生化：图像、音频、视频统一进入 Token 化处理。
开源闭源差距缩小但未消除：DeepSeek、Qwen、Llama 4 与 GPT-5、Claude 4.7 的能力差距，约为 6-12 个月。

这就是我们今天的起点。

三、技术全景：从训练到应用的六大环节

下面这张图是整个大模型技术栈的"骨架"：

┌─────────────────────────────────────────────────────────────┐
│                      原始语料 (Raw Data)                     │
└──────────────────────────────┬──────────────────────────────┘
                               │
                ┌──────────────▼──────────────┐
                │  ① 预训练 Pre-Training       │  → 系列 06
                │  万卡集群 + Scaling Law      │
                └──────────────┬──────────────┘
                               │
                ┌──────────────▼──────────────┐
                │  ② 微调 Fine-Tuning          │  → 系列 07/09/10
                │  SFT / LoRA / QLoRA          │
                └──────────────┬──────────────┘
                               │
                ┌──────────────▼──────────────┐
                │  ③ 对齐 Alignment            │  → 系列 08
                │  RLHF / DPO / GRPO           │
                └──────────────┬──────────────┘
                               │
                ┌──────────────▼──────────────┐
                │  ④ 推理优化 Inference Opt.   │  → 系列 11-15
                │  KV Cache / 量化 / Flash Attn│
                └──────────────┬──────────────┘
                               │
                ┌──────────────▼──────────────┐
                │  ⑤ 部署服务化 Serving       │  → 系列 16-20（重点）
                │  vLLM / SGLang / 分布式      │
                └──────────────┬──────────────┘
                               │
                ┌──────────────▼──────────────┐
                │  ⑥ 应用生态 Applications    │  → 系列 26-30
                │  RAG / Agent / Tool Use     │
                └─────────────────────────────┘

下面我们逐层拆解，每一层都对应后续系列的若干篇文章。

3.1 第一层：预训练（Pre-Training）

核心问题：怎么从海量原始文本中学到通用语言能力？

预训练是大模型的"地基"，决定了模型的能力上限。

数据：万亿 Token 级别，涵盖网页（CommonCrawl）、书籍、代码（GitHub）、学术（arXiv）等。质量、配比、去重是核心难点。
算力：千卡到万卡 GPU 集群，训练周期数周到数月。
关键理论：
- Scaling Law（OpenAI, 2020）：模型能力 ∝ 算力^α
- Chinchilla 定律（DeepMind, 2022）：算力固定时，参数与数据应"等比例增长"

工程上最大的挑战是分布式训练的稳定性——万卡集群每天都有 GPU 故障，需要 Checkpoint 容错、自动迁移、健康检查。

👉 详见 系列第 6 篇：预训练全流程

3.2 第二层：监督微调（SFT）

核心问题：怎么让通用模型适应特定任务/领域？

预训练完的"基座模型"只会"接话"，不会"对话"或"按指令做事"。SFT 通过高质量指令数据让模型学会响应格式。

全参微调（Full FT）：效果上限高，但成本高（70B 模型需 8×H100）。
LoRA / QLoRA：只训练少量适配器参数，成本降 10-100 倍，是目前最主流的方案。
MoE 微调：DeepSeek MoE 等模型有特殊微调策略。

工程师视角的关键判断：80% 的业务场景不需要全参微调，LoRA + 高质量数据足矣。剩下 20% 真正需要"模型重写知识"的场景，再上 QLoRA 或全参。

👉 详见 系列第 7 篇：SFT 微调实战

3.3 第三层：对齐（Alignment）

核心问题：怎么让模型的输出符合人类偏好（有用、无害、诚实）？

对齐是 ChatGPT 成功的关键，也是商业化模型必须做的环节。

方法	提出时间	复杂度	当下地位
RLHF (PPO)	2022	高	仍是闭源大厂主选
DPO	2023	中	开源社区主流
GRPO	2024 (DeepSeek R1)	高	推理模型新主流

DPO 把 RLHF 从"三阶段流程（SFT + RM + PPO）“简化为"一阶段优化”，大幅降低了开源团队的对齐成本，是近两年最重要的工程贡献之一。

👉 详见 系列第 8 篇：RLHF 与 DPO

3.4 第四层：推理优化（Inference Optimization）

核心问题：怎么让大模型在生产环境跑得又快又省？

这是整个系列最贴近后端工程师日常的部分。核心技术包括：

技术	解决什么问题	量级提升
KV Cache	避免重复计算历史 Token 的 K/V	2-10×
PagedAttention (vLLM)	显存碎片导致的浪费	2-4× 吞吐
Continuous Batching	静态 Batching 的 GPU 空闲	5-10× 吞吐
Flash Attention	Attention 计算的 IO 瓶颈	2-4×
量化（INT8/INT4）	显存与算力消耗	2-4×
投机解码 (Speculative Decoding)	串行解码的延迟	2-3×

一个直观的数字：用裸 Transformers 库跑 Llama-70B，单 H100 大概 10 tokens/s；用 vLLM + INT8，可以做到 1000+ tokens/s 的吞吐（多请求并发）。性能差距 100 倍。

👉 详见 系列第 11-15 篇：推理优化模块

3.5 第五层：部署服务化（Serving）

核心问题：怎么把模型变成稳定可调用的 API 服务？

这是整个系列的重点模块，因为这是"AI 工程师"区别于"AI 算法工程师"的核心战场。

主流推理框架（2026 年）：

框架	主要厂商	优势	适用场景
vLLM	UC Berkeley	易用、社区活跃、PagedAttention	通用首选
SGLang	LMSYS	复杂控制流、JSON 模式	Agent / 结构化输出
TensorRT-LLM	NVIDIA	极致性能	生产追求极限
TGI	HuggingFace	HF 生态融合好	HF 体系内部署
Ollama	社区	一行命令本地起	开发 / 个人

分布式推理的并行策略：

TP（Tensor Parallel）：单层算子拆到多卡，适合大模型 + 高带宽互联。
PP（Pipeline Parallel）：不同层放到不同卡，适合跨节点。
EP（Expert Parallel）：MoE 专家分布式，适合超大模型。

👉 详见 系列第 16-20 篇：部署服务化模块（系列重头戏）

3.6 第六层：应用生态（Applications）

核心问题：怎么让大模型真正产生业务价值？

到这一层，我们终于把"模型"变成了"产品"。当下的主流形态：

RAG（检索增强生成）：解决知识时效性与私域数据问题。从朴素 RAG → Hybrid RAG → GraphRAG。
Function Calling / Tool Use：让模型能调外部工具，访问实时数据、执行代码。
Agent：多步骤决策 + 工具调用 + 记忆，自主完成复杂任务。
多模态应用：图文理解、文档智能、语音交互。

工程角度的关键认知：LLM 自己不是产品，LLM + 检索 + 工具 + 工作流才是产品。这是为什么 Agent 框架（LangChain、LlamaIndex、AutoGen、CrewAI）会成为新一代基础设施。

👉 详见 系列第 26-30 篇：应用生态模块

四、开源 vs 闭源：2026 年的格局判断

这是工程师做技术选型时最常被问的问题。我们直接上结论，再展开。

4.1 当下主要玩家

闭源四强（按综合能力，仅作参考）：

模型家族	代表型号	优势	典型短板
Claude（Anthropic）	Opus 4.7 / Sonnet 4.6	Agent 与代码能力顶尖，长上下文（1M）质量好	推理速度偏慢
GPT（OpenAI）	GPT-5 / o3	推理能力（o 系列）、生态最广	价格中高
Gemini（Google）	2.5 Pro / Flash	原生多模态、长上下文便宜	文字质量略弱
Grok（xAI）	Grok 3	实时数据集成	工程化能力弱

开源四强：

模型家族	代表型号	优势	典型短板
Llama（Meta）	Llama 4	生态最广、工具链完善	中文一般
Qwen（阿里）	Qwen 3-72B / Qwen MoE	中文最强、尺寸完整（0.5B-110B）	部分场景泛化弱
DeepSeek（深度求索）	V4 / R2	极致性价比、推理能力强	训练数据偏技术向
Mistral	Mixtral / Magistral	欧洲合规、MoE 设计成熟	中文一般

中国其他主要力量：智谱 GLM、零一 Yi、百川 Baichuan、Kimi（Moonshot）、阶跃 Step、MiniMax。

4.2 选型决策表

不同场景下的实战推荐：

场景	推荐路线	理由
MVP 验证 / 创业初期	Claude / GPT API	速度第一，省运维成本
大流量 ToC，对延迟敏感	Gemini Flash / 自部署 Qwen 2.5-32B	单 Token 成本低
私有数据，合规第一	自部署 Qwen / Llama / DeepSeek	数据不出域
极致成本压缩	自部署 DeepSeek / Qwen MoE	性价比
Code 助手	Claude Sonnet / DeepSeek-Coder	代码能力强
多模态客服	Gemini / GPT-4o	原生多模态
长文档处理（>200K）	Claude / Gemini	长上下文质量好
Agent / 自动化	Claude / GPT o3	Tool Use 稳
离线 / 端侧 / 边缘	Qwen 3B / Phi-4 / Gemma	小模型
行业垂直微调	开源底座 + LoRA	闭源不支持

4.3 一个被低估的判断

很多人争论"开源能不能追上闭源"。从工程师视角，更有用的判断是：

开源与闭源的差距，已经从「能力代差」变成了「时间差」——开源平均比闭源滞后 6-12 个月达到同等能力。

这意味着：

对于前沿能力刚需（如需要 SOTA 推理、复杂 Agent）的业务，闭源仍是必选项。
对于当下足够用的业务（绝大多数 ToB / ToC 场景），开源完全可以承接，且能省下 80%+ 的 API 费用。

一个合理的工程团队策略是：API 先跑，开源后接——用闭源 API 快速验证产品形态，跑通后再迁移到自部署开源模型降低成本。这也是为什么本系列把部署与服务化作为重点模块来写。

五、系列预告与导航：35 篇怎么读

系列共分七个模块、35 篇。下面是完整目录和推荐阅读路径。

5.1 七大模块速览

模块	篇数	核心问题
一、入门认知	5 篇	LLM 是什么？关键概念有哪些？
二、训练与微调	5 篇	怎么训练一个 LLM？怎么微调？
三、推理优化	5 篇	怎么让推理更快更省？
四、部署服务化	5 篇	怎么把模型变成生产 API？
五、工程实践	5 篇	集群运维、成本、监控怎么做？
六、应用生态	5 篇	RAG / Agent / 多模态怎么落地？
七、前沿与思考	5 篇	MoE / 推理模型 / 端侧 / 安全

5.2 完整目录（35 篇）

一、入门认知篇

大模型时代全景图（本篇）
一文读懂 Transformer：从 Attention 到 LLM 的核心架构
模型参数解密：7B、13B、70B、671B 到底意味着什么
Tokenizer 那些事：BPE、SentencePiece 与中文分词
上下文窗口的秘密：从 4K 到 1M 的技术演进

二、训练与微调篇

预训练全流程：数据、算力、Scaling Law 实战拆解
SFT 微调实战：LoRA / QLoRA / 全参微调对比
RLHF 与 DPO：让模型对齐人类偏好的两条路径
垂直领域大模型：行业微调实战指南
训练数据工程：高质量数据的构建与清洗

三、推理优化篇

推理加速三板斧：KV Cache、PagedAttention、Continuous Batching
量化压缩实战：INT8 / INT4 / AWQ / GPTQ 全面对比
Flash Attention 原理与实践
投机解码：让大模型推理快 2 倍
长上下文优化：YaRN、Ring Attention 详解

四、部署与服务化篇（系列重点）

vLLM 部署实战：从单卡到多卡的高性能服务
推理框架横评：vLLM / TGI / TensorRT-LLM / SGLang
本地化部署：Ollama 与 LM Studio 轻量方案
OpenAI 兼容 API：服务化接口实现
分布式推理：TP / PP / EP 并行策略

五、工程实践篇

GPU 选型指南：A100 / H100 / 4090 / 910B 性价比
集群运维：监控、调度、容灾全攻略
模型权重管理：Safetensors 与私有化 Hub
显存优化实战：从 OOM 到丝滑运行
TCO 成本测算：训练与推理成本模型

六、应用生态篇

RAG 实战：从向量数据库到 GraphRAG
Function Calling / Tool Use：让模型"动"起来
Agent 框架对比：LangChain / LlamaIndex / AutoGen
多模态部署：VLM、语音、视频理解
Prompt 工程方法论

七、前沿与思考篇

MoE 架构深度解析：DeepSeek、Mixtral 背后的稀疏化
推理模型（o1 / R1）原理：Test-Time Scaling 新范式
端侧大模型：Phi、Gemma 与小模型逆袭
开源 vs 闭源：Llama / Qwen / DeepSeek 生态博弈
大模型安全：越狱、提示注入与防御

5.3 推荐阅读路径

根据你的角色，可以走不同路径。

🚀 新手快速入门路径（约 10 篇）

01（本篇）→ 02 Transformer → 03 参数解密 → 16 vLLM 部署 → 18 Ollama → 26 RAG → 27 Tool Use → 28 Agent

🔧 部署工程师路径（约 12 篇）

01 → 11 推理加速 → 12 量化 → 16 vLLM → 17 框架横评 → 19 API 服务化 → 20 分布式 → 21 GPU 选型 → 22 集群运维 → 24 显存优化

📊 算法工程师路径（约 12 篇）

01 → 02 → 06 预训练 → 07 SFT → 08 RLHF/DPO → 09 垂直微调 → 11 → 13 Flash Attn → 14 投机解码 → 31 MoE → 32 推理模型

🎯 技术决策者路径（约 8 篇）

01 → 03 参数 → 17 框架横评 → 21 GPU 选型 → 25 TCO 成本 → 34 开源闭源 → 35 安全

5.4 更新计划

本系列预计每周 4-6 篇，每篇约 5000-8000 字，两个月内完成。重点模块（部署服务化）会优先放出。

结语：大模型不是魔法，是可解构的工程系统

写到这里，希望你已经建立起了一个基本的心智模型：

大模型不是一个"黑盒 API"，而是一个包含训练、对齐、推理、部署、应用的完整工程栈。
这个栈的每一层，都有具体的工程挑战、典型方案、踩坑经验。
闭源与开源不是非此即彼的选择，而是互补的工具——选对场景，每一个都能发挥最大价值。

接下来 34 篇，我们会一层一层把这个工程栈拆开，从最基础的 Transformer 架构、到生产级的 vLLM 部署、到前沿的推理模型与 MoE 设计。我尽量做到每篇都是可以直接照着落地的实战内容。

如果你正在做大模型相关的工作，或者准备转入这个领域——欢迎跟上这个系列。我们一起把"大模型"这件事，从神秘走向清晰，从概念走向工程。

下一篇预告：《一文读懂 Transformer：从 Attention 到 LLM 的核心架构》——我们会从最基本的 Self-Attention 讲起，一路推到 GPT 的解码逻辑、KV Cache 的复用机制，让你彻底理解"大模型为什么是这样工作的"。

📮 关于「码海寻道」
这里是一个聚焦 AI 工程化、大模型部署、后端架构实战的技术专栏。
写最一线的踩坑经验，做最务实的技术拆解。

如果这篇文章对你有启发，欢迎点赞、转发、关注。

我们下篇见。

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

试了6款AI编程工具，我只留这2个

AI Agent技术社区

为什么AI功能越发达，电商客服的差评反而越多？

但一个矛盾的现象正在越来越多的客服管理者之间蔓延：技术预算花了，机器人上线了，可客服团队的疲惫感没有减轻，大促期间的排队时长没有显著缩短，而用户投诉中关于“机器人答非所问”“转人工后要重复说三遍”的声音反而增加了。一线客服不再盯着几十个聊天窗口同时回复，而是监控AI Agent的运行状态，处理那些AI无法独立完成的边缘案例——情绪激动的投诉、涉及多方协调的纠纷、超出知识库范围的新品问题。人员流失率