【学习笔记】大模型时代全景图:从 GPT 到 Claude/DeepSeek,一文看懂 LLM 演进史

一、为什么要做这个系列
2026 年的当下,如果你是一名工程师,大概率已经无法回避这样的对话:
产品经理:「咱们这个功能用 GPT-5 还是 Claude 4.7?」
老板:「成本太高,能不能换成开源的?DeepSeek V4 行不行?」
运维:「单卡跑不动 70B 啊,要不要上 vLLM?还是 SGLang?」
算法同学:「这个场景要不要微调?LoRA 够不够?」
每一个问题背后,都是一个完整的技术栈。
过去三年,大模型从「OpenAI 的 ChatGPT」一种形态,演化成今天这样:
6 家闭源巨头、十几个开源系列、上百个微调变体、五六个主流推理框架、十几种部署形态。一个普通的 AI 工程师,仅仅是"搞清楚现在都有什么",就需要花费数周。
更麻烦的是,这个领域的知识衰减速度极快——半年前的最优实践,今天可能已经被淘汰;半年前红极一时的框架,今天可能已经被另一个框架"完全替代"。任何想认真做大模型工程化的人,都需要一份系统的、工程视角的、有判断的知识地图。
这就是我写这个系列的初衷。
《大模型知识与部署》系列共 35 篇,会从最基础的演进史、Transformer 架构,一路写到推理优化、分布式部署、Agent 应用、MoE 与推理模型等前沿话题。每一篇都按工程视角组织——少讲抽象理论,多讲落地决策,多讲踩坑经验。
而你正在读的这第一篇,是整个系列的全景图——读完它,你将得到:
-
一条清晰的大模型演进时间线
-
一张从训练到部署到应用的全链路技术地图
-
一份当下开源 vs 闭源的格局判断
-
一张后续 34 篇的导航图
我们开始。
二、为什么我们需要一份「全景图」
2.1 大模型已经不是"黑盒玩具"
2023 年初,大多数工程师对 LLM 的认知还停留在「调 OpenAI 的 API」。两年过去,情况发生了根本变化:
-
训练侧:开源权重唾手可得,从 0.5B 到 671B 一应俱全,LoRA 微调成本降到几百美元。
-
推理侧:vLLM、TGI、TensorRT-LLM、SGLang 等高性能引擎让一张 H100 能撑住几百 QPS。
-
应用侧:RAG、Agent、Tool Use、MCP 协议……让 LLM 真正"长出手脚"。
这意味着,大模型已经从"调用别人 API"变成了"自建基础设施"。一个完整的大模型工程栈,复杂度不亚于一套微服务系统,涉及到:
-
模型权重管理与版本控制
-
GPU 集群与显存调度
-
分布式推理与负载均衡
-
上下游的向量库、Agent 框架、可观测性
-
持续迭代的微调、对齐、评测流水线
这套栈的复杂度,超出了"AI 算法"一个岗位能涵盖的范围,注定要靠算法 + 工程 + 运维协同来落地。所以工程师必须懂——不止于 prompt,而是从训练到部署到应用的完整链路。
2.2 工程师面对的真实困境
把日常工作中常见的几类问题列出来,你就会理解为什么需要一份全景图:
|
困境类型 |
典型问题 |
知识需求 |
| 选型困境 |
用闭源 API 还是开源自部署?7B 够不够?要不要 MoE? |
模型能力对比、参数规模认知、上下文需求 |
| 部署困境 |
vLLM 还是 SGLang?单卡还是多卡?TP 还是 PP? |
推理框架对比、并行策略、显存计算 |
| 成本困境 |
H100 一卡难求,A100 够用吗?4090 能跑吗? |
GPU 选型、量化技术、Continuous Batching |
| 微调困境 |
业务效果不够,是要 RAG 还是微调?LoRA 还是全参? |
RAG vs 微调决策、SFT 与 DPO 区别 |
| 应用困境 |
做 Agent 还是工作流?用 LangChain 还是自研? |
Agent 架构、Tool Use、MCP 生态 |
每一类困境,单独拎出来都能写一本书。但碎片化地学,往往学完仍然不会做决策——因为缺一张"全景图",看不到这些技术点彼此之间的位置关系。
2.3 信息半衰期:六个月
大模型领域最致命的一点:知识半衰期约为六个月。
-
2023 年的最佳推理框架是 TGI,2024 年是 vLLM,2025 年开始 SGLang 后来居上。
-
2023 年的微调王者是 LoRA,2024 年 QLoRA 几乎成为默认,2025 年 DPO 又替换了相当一部分 RLHF 流程。
-
2024 年还在卷参数规模(DeepSeek V3 671B),2025 年开始卷推理时间(o1/R1/Claude 4 Thinking)。
这就要求我们不能只学"当下的事实",更要理解事实背后的逻辑与演进方向。这也是为什么本系列的开篇要花大力气讲演进史——搞清楚我们从哪里来,才能判断我们要到哪里去。
三、八年演进史:从 Transformer 到推理模型
3.1 时间线一览
2017 Transformer 论文 ────────────── 序列建模脱离 RNN
2018 GPT-1 / BERT ──────────────── 预训练-微调范式确立
2019 GPT-2 (1.5B) ──────────────── "太危险不敢开源"的传说
2020 GPT-3 (175B) ──────────────── Scaling Law 与 In-Context Learning
2022.11 ChatGPT 上线 ─────────── RLHF 让 LLM 走入大众
2023.02 LLaMA-1 开源 ────────── 开源大模型生态启动
2023.03 GPT-4 / Claude-1 ────── 多模态与 100K 上下文
2023.07 Llama 2 商用 ────────── 真正可商用的开源底座
2023 下半年 Qwen / DeepSeek 开源 ─ 中国开源力量入场
2024.03 Claude 3 ──────────── 200K 上下文,首次反超 GPT-4
2024.04 Llama 3 ─────────────── 开源逼近 GPT-4
2024.05 GPT-4o ─────────────── 端到端多模态
2024.09 o1 预览 ─────────────── Test-Time Scaling 新范式
2024.12 DeepSeek V3 (671B MoE) ── 极致性价比震动行业
2025.01 DeepSeek R1 开源 ───── 推理模型平民化
2025 上半年 Claude 4 / GPT-4.5 ─── 推理 + Agent 能力升级
2025.10 Haiku 4.5 ─────────── 小模型也能强推理
2026 当下 Claude Opus 4.7 / 1M 上下文 ── 进入"Agent + 长上下文"主战场
下面我们挑关键节点展开。
3.2 起点:Transformer 的诞生(2017)
2017 年 6 月,Google Brain 发表《Attention is All You Need》。这篇论文最大的工程贡献不是"提出了 attention 机制"(attention 此前已存在),而是抛弃了 RNN 的循环结构,让序列建模可以完全并行化。
工程意义有三点:
(1) 训练可以堆 GPU——RNN 时代单卡训不动大模型,Transformer 可以做大规模数据并行。
(2) 推理也能并行——后来推理优化中的 KV Cache、PagedAttention 都建立在 attention 的可重用性之上。
(3) 架构高度统一——CV、NLP、语音、多模态,最终都收敛到 Transformer 家族。
💡 这就是为什么本系列第 2 篇会专门写《一文读懂 Transformer》——它是后续所有内容的地基。
3.3 预训练范式确立(2018-2020)
Transformer 提出后,很快诞生了两条不同的路线:
-
BERT 路线(Encoder-only):Google 提出,擅长理解类任务(分类、抽取)。
-
GPT 路线(Decoder-only):OpenAI 提出,擅长生成类任务。
事后看,Decoder-only 赢得了一切。原因有二:自回归生成的统一性让 LLM 可以做几乎所有 NLP 任务;以及 GPT-3 引爆的 Scaling Law——只要参数足够大、数据足够多,模型能力会持续提升。
2020 年 GPT-3 发布时只有 175B 参数,却展示了惊人的 In-Context Learning 能力:不再需要微调,只要在 prompt 里给几个例子,模型就能学会。这一刻起,"prompt engineering" 成为新职业。
3.4 ChatGPT 引爆点(2022.11)
2022 年 11 月 30 日,ChatGPT 上线。两个月后,月活破亿,成为史上增长最快的消费级产品。
ChatGPT 的核心技术贡献是 RLHF(人类反馈强化学习):用人类偏好数据训练一个奖励模型,再用 PPO 算法让 LLM 朝着"人类喜欢的回答"优化。这让 LLM 第一次从"会接话"变成"会对话"。
工程角度的影响:
-
对齐成为大模型工程的核心环节,"训练→对齐→部署"成为标准流水线。
-
API 调用从 to-dev 变成 to-everyone,倒逼了云推理服务的工程化。
-
AI 应用层出现:LangChain、LlamaIndex 等框架快速崛起。
3.5 群雄并起(2023)
2023 年是大模型历史上信息密度最高的一年:
-
3 月:GPT-4 发布,首次具备多模态(视觉理解)能力;同月 Anthropic 发布 Claude 1,提出"宪法 AI"对齐思路。
-
2 月:Meta 发布 LLaMA-1(仅研究用途),却被全网"魔改",DIY 开源生态全面启动。
-
7 月:Llama 2 商用开源,真正点燃了开源大模型的产业落地。
-
下半年:阿里 Qwen、深度求索 DeepSeek、智谱 ChatGLM、零一 Yi、百川 Baichuan 集中发布。中国开源力量正式入场。
这一年留下的工程遗产至关重要:开源模型从此可以商用,自部署成为现实选项;上下文窗口从 4K 扩展到 100K(Claude 1),Long Context 工程问题开始受关注;多模态成为标配。
3.6 性能与成本双向奔赴(2024)
如果 2023 年是"卷能力",2024 年就是"卷成本与可用性":
-
Claude 3(3 月):Opus 模型首次在多个评测中反超 GPT-4,且原生支持 200K 上下文。
-
Llama 3(4 月):8B 模型超越上一代 70B,开源逼近闭源 SOTA。
-
GPT-4o(5 月):原生端到端多模态,延迟降到人类对话级别(~300ms)。
-
DeepSeek V3(12 月):671B MoE 模型仅用 557 万美元训练成本,直接重塑了行业对训练成本的认知。
工程意义:
1. 上下文长度的军备竞赛:从 4K → 32K → 100K → 200K → 1M。这背后是 Flash Attention、YaRN、Ring Attention 等一系列推理优化技术。
2. MoE 架构成为主流:DeepSeek V3、Mixtral、Qwen MoE 都证明了稀疏激活可以在保持效果的同时大幅降低推理成本。
3. 小模型崛起:Phi-3、Gemma、Qwen 2 的小尺寸版本展示了"端侧大模型"的可能性。
3.7 推理模型的拐点(2024 末 - 2025)
2024 年 9 月,OpenAI 发布 o1-preview,开启**推理模型(Reasoning Model)**新范式:
-
传统 LLM:一次性生成回答,依赖训练时学到的知识。
-
推理模型:先生成大段"内部思考链",再给出最终答案,用推理时算力换准确率。
这就是 Test-Time Scaling——在推理阶段花更多 Token、更多时间,换更高质量的输出。
2025 年 1 月,DeepSeek R1 开源,让推理模型的训练方法(GRPO 算法 + 大规模 RL)公开化,平民化。Claude 4 系列、Gemini 2.5 也都加入了"思考模式"。
工程意义:
-
延迟模型重构:从"秒级响应"变成"分钟级深度思考",需要新的工程架构(流式输出、异步任务、思考过程可见性)。
-
算力分配变化:训练算力占比下降,推理算力占比上升。
-
评测体系变化:基准从 MMLU 转向 AIME、SWE-Bench 等真正考察推理能力的任务。
3.8 当下:2026 年的格局
到2026 年 5 月,主要趋势已经清晰:
-
1M 上下文成为标配:Claude Opus 4.7、Gemini 2.5 Pro 都支持 1M Token 上下文。
-
Agent 走向生产:Tool Use、Computer Use、MCP 协议成熟,Agent 真正开始替代部分人力工作。
-
多模态原生化:图像、音频、视频统一进入 Token 化处理。
-
开源闭源差距缩小但未消除:DeepSeek、Qwen、Llama 4 与 GPT-5、Claude 4.7 的能力差距,约为 6-12 个月。
这就是我们今天的起点。
四、技术全景:从训练到应用的六大环节
下面这张图是整个大模型技术栈的"骨架":
┌─────────────────────────────────────────────────────────────┐
│ 原始语料 (Raw Data) │
└──────────────────────────────┬──────────────────────────────┘
│
┌──────────────▼──────────────┐
│ ① 预训练 Pre-Training │ → 系列 06
│ 万卡集群 + Scaling Law │
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ ② 微调 Fine-Tuning │ → 系列 07/09/10
│ SFT / LoRA / QLoRA │
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ ③ 对齐 Alignment │ → 系列 08
│ RLHF / DPO / GRPO │
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ ④ 推理优化 Inference Opt. │ → 系列 11-15
│ KV Cache / 量化 / Flash Attn│
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ ⑤ 部署服务化 Serving │ → 系列 16-20(重点)
│ vLLM / SGLang / 分布式 │
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ ⑥ 应用生态 Applications │ → 系列 26-30
│ RAG / Agent / Tool Use │
└─────────────────────────────┘
下面我们逐层拆解,每一层都对应后续系列的若干篇文章。
4.1 第一层:预训练(Pre-Training)
核心问题:怎么从海量原始文本中学到通用语言能力?
预训练是大模型的"地基",决定了模型的能力上限。
-
数据:万亿 Token 级别,涵盖网页(CommonCrawl)、书籍、代码(GitHub)、学术(arXiv)等。质量、配比、去重是核心难点。
-
算力:千卡到万卡 GPU 集群,训练周期数周到数月。
-
关键理论:
-
Scaling Law(OpenAI, 2020):模型能力 ∝ 算力^α
-
Chinchilla 定律(DeepMind, 2022):算力固定时,参数与数据应"等比例增长"
-
工程上最大的挑战是分布式训练的稳定性——万卡集群每天都有 GPU 故障,需要 Checkpoint 容错、自动迁移、健康检查。
👉 详见 系列第 6 篇:预训练全流程
4.2 第二层:监督微调(SFT)
核心问题:怎么让通用模型适应特定任务/领域?
预训练完的"基座模型"只会"接话",不会"对话"或"按指令做事"。SFT 通过高质量指令数据让模型学会响应格式。
-
全参微调(Full FT):效果上限高,但成本高(70B 模型需 8×H100)。
-
LoRA / QLoRA:只训练少量适配器参数,成本降 10-100 倍,是目前最主流的方案。
-
MoE 微调:DeepSeek MoE 等模型有特殊微调策略。
工程师视角的关键判断:80% 的业务场景不需要全参微调,LoRA + 高质量数据足矣。剩下 20% 真正需要"模型重写知识"的场景,再上 QLoRA 或全参。
👉 详见 系列第 7 篇:SFT 微调实战
4.3 第三层:对齐(Alignment)
核心问题:怎么让模型的输出符合人类偏好(有用、无害、诚实)?
对齐是 ChatGPT 成功的关键,也是商业化模型必须做的环节。
|
方法 |
提出时间 |
复杂度 |
当下地位 |
|
RLHF (PPO) |
2022 |
高 |
仍是闭源大厂主选 |
|
DPO |
2023 |
中 |
开源社区主流 |
|
GRPO |
2024 (DeepSeek R1) |
高 |
推理模型新主流 |
DPO 把 RLHF 从"三阶段流程(SFT + RM + PPO)"简化为"一阶段优化",大幅降低了开源团队的对齐成本,是近两年最重要的工程贡献之一。
👉 详见 系列第 8 篇:RLHF 与 DPO
4.4 第四层:推理优化(Inference Optimization)
核心问题:怎么让大模型在生产环境跑得又快又省?
这是整个系列最贴近后端工程师日常的部分。核心技术包括:
|
技术 |
解决什么问题 |
量级提升 |
| KV Cache |
避免重复计算历史 Token 的 K/V |
2-10× |
| PagedAttention
(vLLM) |
显存碎片导致的浪费 |
2-4× 吞吐 |
| Continuous Batching |
静态 Batching 的 GPU 空闲 |
5-10× 吞吐 |
| Flash Attention |
Attention 计算的 IO 瓶颈 |
2-4× |
| 量化(INT8/INT4) |
显存与算力消耗 |
2-4× |
| 投机解码
(Speculative Decoding) |
串行解码的延迟 |
2-3× |
一个直观的数字:用裸 Transformers 库跑 Llama-70B,单 H100 大概 10 tokens/s;用 vLLM + INT8,可以做到 1000+ tokens/s 的吞吐(多请求并发)。性能差距 100 倍。
👉 详见 系列第 11-15 篇:推理优化模块
4.5 第五层:部署服务化(Serving)
核心问题:怎么把模型变成稳定可调用的 API 服务?
这是整个系列的重点模块,因为这是"AI 工程师"区别于"AI 算法工程师"的核心战场。
主流推理框架(2026 年):
|
框架 |
主要厂商 |
优势 |
适用场景 |
| vLLM |
UC Berkeley |
易用、社区活跃、PagedAttention |
通用首选 |
| SGLang |
LMSYS |
复杂控制流、JSON 模式 |
Agent / 结构化输出 |
| TensorRT-LLM |
NVIDIA |
极致性能 |
生产追求极限 |
| TGI |
HuggingFace |
HF 生态融合好 |
HF 体系内部署 |
| Ollama |
社区 |
一行命令本地起 |
开发 / 个人 |
分布式推理的并行策略:
-
TP(Tensor Parallel):单层算子拆到多卡,适合大模型 + 高带宽互联。
-
PP(Pipeline Parallel):不同层放到不同卡,适合跨节点。
-
EP(Expert Parallel):MoE 专家分布式,适合超大模型。
👉 详见 系列第 16-20 篇:部署服务化模块(系列重头戏)
4.6 第六层:应用生态(Applications)
核心问题:怎么让大模型真正产生业务价值?
到这一层,我们终于把"模型"变成了"产品"。当下的主流形态:
-
RAG(检索增强生成):解决知识时效性与私域数据问题。从朴素 RAG → Hybrid RAG → GraphRAG。
-
Function Calling / Tool Use:让模型能调外部工具,访问实时数据、执行代码。
-
Agent:多步骤决策 + 工具调用 + 记忆,自主完成复杂任务。
-
多模态应用:图文理解、文档智能、语音交互。
工程角度的关键认知:LLM 自己不是产品,LLM + 检索 + 工具 + 工作流才是产品。这是为什么 Agent 框架(LangChain、LlamaIndex、AutoGen、CrewAI)会成为新一代基础设施。
👉 详见 系列第 26-30 篇:应用生态模块
五、开源 vs 闭源:2026 年的格局判断
这是工程师做技术选型时最常被问的问题。我们直接上结论,再展开。
5.1 当下主要玩家
闭源四强(按综合能力,仅作参考):
|
模型家族 |
代表型号 |
优势 |
典型短板 |
| Claude(Anthropic) |
Opus 4.7 / Sonnet 4.6 |
Agent 与代码能力顶尖,长上下文(1M)质量好 |
推理速度偏慢 |
| GPT(OpenAI) |
GPT-5 / o3 |
推理能力(o 系列)、生态最广 |
价格中高 |
| Gemini(Google) |
2.5 Pro / Flash |
原生多模态、长上下文便宜 |
文字质量略弱 |
| Grok(xAI) |
Grok 3 |
实时数据集成 |
工程化能力弱 |
开源四强:
|
模型家族 |
代表型号 |
优势 |
典型短板 |
| Llama(Meta) |
Llama 4 |
生态最广、工具链完善 |
中文一般 |
| Qwen(阿里) |
Qwen 3-72B / Qwen MoE |
中文最强、尺寸完整(0.5B-110B) |
部分场景泛化弱 |
| DeepSeek(深度求索) |
V4 / R2 |
极致性价比、推理能力强 |
训练数据偏技术向 |
| Mistral |
Mixtral / Magistral |
欧洲合规、MoE 设计成熟 |
中文一般 |
中国其他主要力量:智谱 GLM、零一 Yi、百川 Baichuan、Kimi(Moonshot)、阶跃 Step、MiniMax。
5.2 选型决策表
不同场景下的实战推荐:
|
场景 |
推荐路线 |
理由 |
| MVP 验证 / 创业初期 |
Claude / GPT API |
速度第一,省运维成本 |
| 大流量 ToC,对延迟敏感 |
Gemini Flash / 自部署 Qwen 2.5-32B |
单 Token 成本低 |
| 私有数据,合规第一 |
自部署 Qwen / Llama / DeepSeek |
数据不出域 |
| 极致成本压缩 |
自部署 DeepSeek / Qwen MoE |
性价比 |
| Code 助手 |
Claude Sonnet / DeepSeek-Coder |
代码能力强 |
| 多模态客服 |
Gemini / GPT-4o |
原生多模态 |
| 长文档处理(>200K) |
Claude / Gemini |
长上下文质量好 |
| Agent / 自动化 |
Claude / GPT o3 |
Tool Use 稳 |
| 离线 / 端侧 / 边缘 |
Qwen 3B / Phi-4 / Gemma |
小模型 |
| 行业垂直微调 |
开源底座 + LoRA |
闭源不支持 |
5.3 一个被低估的判断
很多人争论"开源能不能追上闭源"。从工程师视角,更有用的判断是:
开源与闭源的差距,已经从「能力代差」变成了「时间差」——开源平均比闭源滞后 6-12 个月达到同等能力。
这意味着:
-
对于前沿能力刚需(如需要 SOTA 推理、复杂 Agent)的业务,闭源仍是必选项。
-
对于当下足够用的业务(绝大多数 ToB / ToC 场景),开源完全可以承接,且能省下 80%+ 的 API 费用。
一个合理的工程团队策略是:API 先跑,开源后接——用闭源 API 快速验证产品形态,跑通后再迁移到自部署开源模型降低成本。这也是为什么本系列把部署与服务化作为重点模块来写。
六、系列预告与导航:35 篇怎么读
系列共分七个模块、35 篇。下面是完整目录和推荐阅读路径。
6.1 七大模块速览
|
模块 |
篇数 |
核心问题 |
|
一、入门认知 |
5 篇 |
LLM 是什么?关键概念有哪些? |
|
二、训练与微调 |
5 篇 |
怎么训练一个 LLM?怎么微调? |
|
三、推理优化 |
5 篇 |
怎么让推理更快更省? |
|
四、部署服务化 |
5 篇 |
怎么把模型变成生产 API? |
|
五、工程实践 |
5 篇 |
集群运维、成本、监控怎么做? |
|
六、应用生态 |
5 篇 |
RAG / Agent / 多模态怎么落地? |
|
七、前沿与思考 |
5 篇 |
MoE / 推理模型 / 端侧 / 安全 |
6.2 完整目录(35 篇)
-----------------------------------------------------------------------------
一、入门认知篇
-
1. 大模型时代全景图(本篇)
-
2. 一文读懂 Transformer:从 Attention 到 LLM 的核心架构
-
3. 模型参数解密:7B、13B、70B、671B 到底意味着什么
-
4. Tokenizer 那些事:BPE、SentencePiece 与中文分词
-
5. 上下文窗口的秘密:从 4K 到 1M 的技术演进
二、训练与微调篇
-
6. 预训练全流程:数据、算力、Scaling Law 实战拆解
-
7. SFT 微调实战:LoRA / QLoRA / 全参微调对比
-
8. RLHF 与 DPO:让模型对齐人类偏好的两条路径
-
9. 垂直领域大模型:行业微调实战指南
-
10. 训练数据工程:高质量数据的构建与清洗
三、推理优化篇
-
11. 推理加速三板斧:KV Cache、PagedAttention、Continuous Batching
-
12. 量化压缩实战:INT8 / INT4 / AWQ / GPTQ 全面对比
-
13. Flash Attention 原理与实践
-
14. 投机解码:让大模型推理快 2 倍
-
15. 长上下文优化:YaRN、Ring Attention 详解
四、部署与服务化篇(系列重点)
-
16. vLLM 部署实战:从单卡到多卡的高性能服务
-
17. 推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang
-
18. 本地化部署:Ollama 与 LM Studio 轻量方案
-
19. OpenAI 兼容 API:服务化接口实现
-
20. 分布式推理:TP / PP / EP 并行策略
五、工程实践篇
-
21. GPU 选型指南:A100 / H100 / 4090 / 910B 性价比
-
22. 集群运维:监控、调度、容灾全攻略
-
23. 模型权重管理:Safetensors 与私有化 Hub
-
24. 显存优化实战:从 OOM 到丝滑运行
-
25. TCO 成本测算:训练与推理成本模型
六、应用生态篇
-
26. RAG 实战:从向量数据库到 GraphRAG
-
27. Function Calling / Tool Use:让模型"动"起来
-
28. Agent 框架对比:LangChain / LlamaIndex / AutoGen
-
29. 多模态部署:VLM、语音、视频理解
-
30. Prompt 工程方法论
七、前沿与思考篇
-
31. MoE 架构深度解析:DeepSeek、Mixtral 背后的稀疏化
-
32. 推理模型(o1 / R1)原理:Test-Time Scaling 新范式
-
33. 端侧大模型:Phi、Gemma 与小模型逆袭
-
34. 开源 vs 闭源:Llama / Qwen / DeepSeek 生态博弈
-
35. 大模型安全:越狱、提示注入与防御
-----------------------------------------------------------------------------
6.3 推荐阅读路径
根据你的角色,可以走不同路径。
🚀 新手快速入门路径(约 10 篇)
01(本篇)→ 02 Transformer → 03 参数解密 → 16 vLLM 部署 → 18 Ollama → 26 RAG → 27 Tool Use → 28 Agent
🔧 部署工程师路径(约 12 篇)
01 → 11 推理加速 → 12 量化 → 16 vLLM → 17 框架横评 → 19 API 服务化 → 20 分布式 → 21 GPU 选型 → 22 集群运维 → 24 显存优化
📊 算法工程师路径(约 12 篇)
01 → 02 → 06 预训练 → 07 SFT → 08 RLHF/DPO → 09 垂直微调 → 11 → 13 Flash Attn → 14 投机解码 → 31 MoE → 32 推理模型
🎯 技术决策者路径(约 8 篇)
01 → 03 参数 → 17 框架横评 → 21 GPU 选型 → 25 TCO 成本 → 34 开源闭源 → 35 安全
6.4 更新计划
本系列预计每周 4-6 篇,每篇约 5000-8000 字,两个个月内完成。重点模块(部署服务化)会优先放出。
七、结语:大模型不是魔法,是可解构的工程系统
写到这里,希望你已经建立起了一个基本的心智模型:
-
大模型不是一个"黑盒 API",而是一个包含训练、对齐、推理、部署、应用的完整工程栈。
-
这个栈的每一层,都有具体的工程挑战、典型方案、踩坑经验。
-
闭源与开源不是非此即彼的选择,而是互补的工具——选对场景,每一个都能发挥最大价值。
参考文献:
更多推荐
所有评论(0)