知识体系篇-人工智能基础知识（05）大语言模型（LLM）原理与应用：从 GPT 到 ChatGPT，一篇彻底搞懂

本文系统梳理了大语言模型(LLM)的核心原理与发展历程。主要内容包括： LLM定义与特征：参数量达数十亿至数万亿，训练数据达万亿级Token，具备语言理解、生成、推理等综合能力。发展历程：从2018年GPT-1到2023年GPT-4，模型规模与能力持续突破，ChatGPT引爆应用热潮。训练流程三阶段：预训练：通过海量文本学习语言规律监督微调(SFT)：使用高质量指令数据优化对话能力强化学

白话机器学习

677人浏览 · 2026-05-01 09:47:47

白话机器学习 · 2026-05-01 09:47:47 发布

大语言模型（LLM）原理与应用：从 GPT 到 ChatGPT，一篇彻底搞懂

专栏：人工智能训练师三级备考全攻略
所属模块：卷三·知识体系 — 人工智能基础
考试关联度：⭐⭐⭐⭐⭐（超级高频，选择题+判断题，约 10～15 题）

前言：为什么大模型是考试重中之重？

2022年底 ChatGPT 爆火之后，大语言模型（Large Language Model，LLM）已经成为 AI 行业最大的变革力量。作为人工智能训练师，你的日常工作——数据标注、Prompt 优化、模型评测、RLHF 数据构建——几乎全部围绕大模型展开。

考试中，LLM 相关题目占比极高，而且涉及面广：从 Transformer 原理到训练流程，从 Prompt 技巧到伦理安全。这篇文章帮你系统梳理。

一、什么是大语言模型？

1.1 定义与核心特征

大语言模型（LLM）= 参数量巨大的语言模型

  "大"体现在：
  ┌──────────────────────────────────────┐
  │  参数量：数十亿到数万亿               │
  │  训练数据：数万亿 Token               │
  │  训练成本：数百万到数千万美元          │
  │  训练时间：数周到数月                 │
  └──────────────────────────────────────┘

  规模感：
  GPT-1（2018）：  1.17亿参数    ≈ 几本书
  GPT-2（2019）：  15亿参数      ≈ 一座图书馆
  GPT-3（2020）：  1750亿参数    ≈ 整个互联网文本
  GPT-4（2023）：  未公开（估计>1万亿）≈ ???

1.2 LLM 的核心能力

LLM 的能力全景：

  ┌──────────────────────────────────────────────┐
  │              大语言模型能力                    │
  ├────────────┬──────────┬──────────┬───────────┤
  │ 语言理解    │ 语言生成  │ 推理能力  │ 工具使用   │
  │ 情感分析    │ 文章写作  │ 逻辑推理  │ 代码执行   │
  │ 信息抽取    │ 对话交互  │ 数学计算  │ 搜索增强   │
  │ 文本摘要    │ 翻译     │ 因果推断  │ API调用   │
  │ 问答系统    │ 创意写作  │ 常识推理  │ 插件生态   │
  └────────────┴──────────┴──────────┴───────────┘

二、LLM 的发展时间线

大语言模型演进时间线：

2018   GPT-1          验证"预训练+微调"范式可行
  │
2019   GPT-2          15亿参数，展示零样本生成能力
  │
2020   GPT-3          1750亿参数，"少样本学习"惊艳世界
  │
2022   ChatGPT        RLHF 对齐人类偏好，引爆全球
  │
2023   GPT-4          多模态，考试能力接近人类水平
  │     LLaMA         Meta开源，开源大模型浪潮
  │     ChatGLM       清华/智谱，国产开源代表
  │     文心一言      百度，国产商业代表
  │
2024   GPT-4o         全模态实时交互
  │     Claude 3      Anthropic 长上下文领先
  │     GLM-4         智谱，国产能力提升
  │
2025   DeepSeek       国产高性价比推理模型
  │
2026   多模态+Agent    大模型进入自主代理时代

三、LLM 的训练流程

3.1 三阶段训练全景图

LLM 训练的三个阶段：

  阶段一：预训练（Pre-training）          阶段二：监督微调（SFT）       阶段三：对齐（RLHF）
  ┌────────────────────┐             ┌──────────────────┐          ┌──────────────────┐
  │ 海量无标注文本       │             │ 高质量对话数据     │          │ 人类偏好反馈       │
  │ 万亿级 Token        │             │ 数万到数十万条     │          │ 奖励模型训练       │
  │                    │             │                  │          │                  │
  │ 目标：学会语言规律   │    →        │ 目标：学会对话格式  │    →     │ 目标：对齐人类偏好   │
  │ 花费：数百万美元     │             │ 花费：数万美元     │          │ 花费：数万美元      │
  │ 时间：数周到数月     │             │ 时间：数天到数周    │          │ 时间：数天         │
  │                    │             │                  │          │                  │
  │ 结果：基础模型       │             │ 结果：对话模型       │          │ 结果：最终可用模型   │
  │ （会续写但不听话）   │             │ （会对话但不够好）  │          │ （既好用又安全）    │
  └────────────────────┘             └──────────────────┘          └──────────────────┘

3.2 阶段一：预训练详解

预训练的核心：下一个词预测（Next Token Prediction）

  输入序列：  "人工智能是" [MASK]
  模型预测：  "人工智能是" → "一"
  继续预测：  "人工智能是一" → "门"
  继续预测：  "人工智能是一门" → "学科"

  每一步：根据前面的所有词，预测下一个最可能的词
  通过万亿级文本的反复训练，模型学会了：
  - 语法规则
  - 常识知识
  - 推理能力
  - 代码编写
  - 多语言理解

预训练数据来源：

数据来源	比例（典型）	特点
互联网网页（Common Crawl）	~60%	数量最大，质量参差不齐
书籍	~15%	质量高，逻辑性强
维基百科	~5%	准确可靠
代码（GitHub）	~10%	逻辑推理能力强
论文/学术文献	~5%	专业知识
对话/社交媒体	~5%	对话能力

3.3 阶段二：监督微调（SFT）

监督微调：用高质量的"指令-回答"对来训练

  训练数据示例：

  指令（Prompt）：         回答（Response）：
  ┌───────────────────┐   ┌────────────────────────┐
  │"请解释什么是机器    │   │"机器学习是人工智能的    │
  │ 学习"              │   │ 一个分支，它让计算机从  │
  └───────────────────┘   │ 数据中自动学习规律..."   │
                           └────────────────────────┘
  ┌───────────────────┐   ┌────────────────────────┐
  │"将以下句子翻译成    │   │"Artificial intelligence│
  │ 英文：人工智能"     │   │ is..."                 │
  └───────────────────┘   └────────────────────────┘
  ┌───────────────────┐   ┌────────────────────────┐
  │"写一首关于春天的诗" │   │"春风拂面花千树，细雨    │
  │                    │   │ 润物细无声..."          │
  └───────────────────┘   └────────────────────────┘

  SFT 让模型从"文本续写器"变成"指令跟随者"

3.4 阶段三：RLHF（基于人类反馈的强化学习）

RLHF 是让 ChatGPT "变好用"的关键技术，考试必考。

RLHF 三步流程：

  Step 1：训练奖励模型（Reward Model）
  ┌──────────────────────────────────────┐
  │ 同一个指令，模型生成多个回答：          │
  │                                      │
  │ 回答A："机器学习是一种方法。"          │
  │ 回答B："机器学习是AI的核心分支，      │
  │         它通过数据驱动的方式让计算机    │
  │         自动学习和改进..."             │
  │ 回答C："我不知道。"                    │
  │                                      │
  │ 人类排序：B > A > C                   │
  │ 用这些偏好数据训练奖励模型             │
  │ → 奖励模型能给任意回答打分             │
  └──────────────────────────────────────┘

  Step 2：用 PPO 强化学习优化
  ┌──────────────────────────────────────┐
  │ 生成回答 → 奖励模型打分 → 调整参数    │
  │                                      │
  │ 目标：生成让奖励模型给出高分的回答     │
  │      = 生成人类更喜欢的回答            │
  └──────────────────────────────────────┘

  Step 3：迭代
  ┌──────────────────────────────────────┐
  │ 多轮 RLHF → 模型越来越符合人类偏好    │
  └──────────────────────────────────────┘

RLHF 核心概念对比：

概念	含义	角色
SFT 模型	经过指令微调的模型	策略（Policy），生成回答
奖励模型（RM）	学习人类偏好的模型	评委，给回答打分
PPO 算法	近端策略优化	训练方法，调整 SFT 模型参数
KL 惩罚	防止模型偏离太远	安全阀，保持回答的多样性

四、Prompt Engineering（提示工程）

4.1 什么是 Prompt？

Prompt = 你给大模型的"指令/提示/上下文"

  一个好的 Prompt 决定了输出质量：
  ❌ 差 Prompt："写文章"
  ✅ 好 Prompt："你是一位资深科技记者，请为CSDN读者写一篇
             800字的AI趋势分析文章，要求逻辑清晰、数据详实、
             包含至少3个案例，面向有技术背景的开发者"

4.2 Prompt 的核心要素

高质量 Prompt 的结构：

  ┌──────────────────────────────────────────┐
  │ ① 角色设定（Role）                       │
  │    "你是一位专业的数据分析师"              │
  │                                          │
  │ ② 任务描述（Task）                        │
  │    "请分析以下销售数据，找出趋势"          │
  │                                          │
  │ ③ 输入数据（Context/Input）               │
  │    "数据如下：Q1=120万, Q2=150万..."      │
  │                                          │
  │ ④ 输出格式（Format）                      │
  │    "请用表格形式输出，包含季度/销售额/增长率"│
  │                                          │
  │ ⑤ 约束条件（Constraint）                  │
  │    "不超过300字，不要使用专业术语"         │
  └──────────────────────────────────────────┘

4.3 常见 Prompt 技巧

技巧	说明	示例
少样本（Few-shot）	给几个示例让模型模仿	“正面：好评；负面：差评 → 这条是？”
思维链（CoT）	让模型"一步步想"	“请一步一步推理，展示你的思考过程”
角色扮演	设定模型的角色身份	“你是一位资深面试官…”
输出约束	限制输出格式/长度	“用JSON格式输出，不超过200字”
系统提示词	设定全局行为规则	System: “你是一个有礼貌但直接的助手”

思维链（Chain of Thought）示例：

不用 CoT：
  Q："一个商店打8折后再降价20%，最终是原价的多少？"
  A（可能错误）："40%"  ← 直接猜错

用 CoT：
  Q："一个商店打8折后再降价20%，最终是原价的多少？请一步步思考。"
  A：
    ① 原价设为100元
    ② 打8折后：100 × 0.8 = 80元
    ③ 再降20%：80 × (1-0.2) = 80 × 0.8 = 64元
    ④ 最终是原价的：64/100 = 64%
  → 正确！

五、LLM 的关键技术

5.1 Token 与分词器

Token = LLM 处理文本的最小单位

  文本："大语言模型很强大"
  Token化：["大", "语言", "模型", "很", "强大"]
           或 ["大语", "言模", "型很", "强大"]（取决于分词器）

  英文 Token 更细：
  "ChatGPT is great" → ["Chat", "G", "PT", " is", " great"]

  关键概念：
  ┌──────────────────────────────────────────┐
  │ Tokenizer（分词器）：文本 → Token ID序列  │
  │                                          │
  │ "Hello" → [15496]                        │
  │ "世界"  → [702, 1062]                    │
  │                                          │
  │ 上下文窗口（Context Window）：             │
  │ 模型一次能处理的最大 Token 数              │
  │ GPT-3: 4K    GPT-4: 128K                 │
  │ Claude 3: 200K    GLM-4: 128K            │
  └──────────────────────────────────────────┘

5.2 Temperature（温度参数）

Temperature 控制输出的随机性/创造性：

  Temperature = 0（确定性）：
    每次选概率最高的词 → 输出稳定、可预测
    适用：代码生成、事实问答、数据提取

  Temperature = 0.7（平衡）：
    适度随机 → 兼顾准确性和多样性
    适用：对话、写作、一般任务

  Temperature = 1.5（高随机）：
    高度随机 → 创意性强但可能不连贯
    适用：创意写作、头脑风暴

  直觉理解：
  ┌──────────────────────────────────────┐
  │ 概率分布：                            │
  │                                      │
  │ T=0:  [0.9, 0.05, 0.05]  几乎选第一个│
  │ T=1:  [0.4, 0.35, 0.25] 有一定随机性 │
  │ T=2:  [0.25, 0.25, 0.25] 完全随机   │
  └──────────────────────────────────────┘

5.3 Top-P 与 Top-K 采样

控制输出多样性的两种方法：

  Top-K（固定数量）：
  ┌─────────────────────────┐
  │ 所有词按概率排序          │
  │ 只从前K个中采样           │
  │ K=50: 只从前50个候选词中选│
  └─────────────────────────┘

  Top-P（动态阈值）：
  ┌─────────────────────────┐
  │ 按概率从高到低累加        │
  │ 当累积概率超过P时停止     │
  │ P=0.9: 选够前90%概率的词  │
  └─────────────────────────┘

  对比：
  Top-K: 简单粗暴，固定候选数量
  Top-P: 更灵活，概率集中时少选，分散时多选

5.4 RAG（检索增强生成）

RAG 的核心思想：给大模型外挂一个"知识库"

  没有RAG：
  用户提问 → LLM → 回答
  （只能用训练数据中的知识，可能过时或编造）

  有RAG：
  用户提问 → 检索知识库 → 取回相关文档 → LLM+文档 → 回答
  （可以用最新知识，减少编造）

  ┌──────────┐    ┌──────────────┐    ┌──────────┐
  │ 用户问题  │──→ │ 向量数据库    │──→ │ 相关文档  │
  │ "2026年   │    │ (知识库)     │    │ 片段     │
  │  AI趋势"  │    │              │    │          │
  └──────────┘    └──────────────┘    └────┬─────┘
                                          │
                                          ↓
                                     ┌──────────┐
                                     │   LLM    │
                                     │ 结合文档  │──→ 精准回答
                                     │ 生成回答  │
                                     └──────────┘

  RAG 的优势：
  ✅ 知识实时更新（更新知识库即可）
  ✅ 减少幻觉（有据可查）
  ✅ 可追溯来源（标注引用文档）

5.5 Fine-tuning（微调）vs RAG

对比维度	RAG（检索增强）	Fine-tuning（微调）
适用场景	知识密集型任务	风格/格式/行为调整
知识更新	✅ 实时更新文档即可	❌ 需重新训练
成本	较低（构建向量库）	较高（GPU训练）
幻觉控制	✅ 有据可查	❌ 仍可能编造
数据需求	文档即可	需要指令-回答对
典型应用	企业知识问答、客服	领域适配、风格定制

六、主流大模型对比

6.1 国际大模型

模型	机构	参数量	上下文	核心特点
GPT-4o	OpenAI	未公开	128K	多模态、实时语音、综合最强
Claude 3.5	Anthropic	未公开	200K	长文本、代码能力强、安全对齐
Gemini	Google	未公开	1M	原生多模态、Google生态集成
LLaMA 3	Meta	8B~405B	8K~128K	开源标杆、社区生态丰富
Mistral	Mistral AI	7B~123B	32K~128K	开源、高效推理

6.2 国产大模型

模型	机构	参数量	上下文	核心特点
文心一言 4.0	百度	未公开	128K	综合能力强、中文理解好
通义千问	阿里	7B~72B	32K~1M	开源、长上下文领先
GLM-4	智谱	9B	128K	开源、中英双语强
DeepSeek-V3	DeepSeek	671B（MoE）	128K	高性价比、MoE架构
讯飞星火	科大讯飞	-	128K	语音+多模态、教育场景
Kimi	月之暗面	-	200K	超长上下文、文档处理

七、LLM 的局限性与挑战

7.1 幻觉（Hallucination）

什么是幻觉？
  大模型"一本正经地胡说八道"

  用户："林黛玉倒拔垂杨柳是在第几回？"
  LLM："在《红楼梦》第七回，林黛玉在大观园中
        倒拔垂杨柳，展示了她的过人力量..."

  ❌ 完全编造！倒拔垂杨柳的是鲁智深（《水浒传》）

  幻觉的成因：
  ┌──────────────────────────────────────┐
  │ ① 训练数据中的噪声和矛盾              │
  │ ② 模型本质是概率预测，不"理解"事实    │
  │ ③ 对未知问题倾向生成看似合理的回答    │
  │ ④ 缺乏外部知识检索机制               │
  └──────────────────────────────────────┘

  缓解方法：
  ✅ RAG（检索增强）
  ✅ Prompt 中加"如果不确定请说不知道"
  ✅ 交叉验证（多模型对比）
  ✅ 人类审核

7.2 其他核心挑战

挑战	说明	影响
幻觉	编造不存在的信息	可信度下降
时效性	训练数据截止，不知道最新事件	知识过时
偏见	训练数据中的社会偏见被继承	输出歧视性内容
安全风险	可能生成有害内容	被恶意利用
成本高昂	训练和推理算力需求巨大	部署门槛高
长文本遗忘	超长输入时前面内容被忽略	长文档处理效果差
可解释性差	难以解释为什么生成某个回答	信任和调试困难

八、LLM 的典型应用场景

大模型应用矩阵：

  ┌─────────┬──────────┬──────────┬──────────┐
  │         │  文本     │  代码     │  多模态   │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 消费者   │ ChatGPT  │ Copilot  │ GPT-4o   │
  │         │ 文心一言  │ Cursor   │  文心一言  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 企业    │ 智能客服  │ 代码审查  │ OCR+分析  │
  │         │ 知识问答  │ 代码生成  │  视觉问答  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 开发者   │ API调用   │ AI编程助手│ 多模态API │
  │         │ Agent开发 │ 自动测试  │  应用构建  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 垂直行业 │ 法律助手  │ 数据分析  │ 医学影像  │
  │         │ 金融分析  │ 自动化脚本│ 工业质检  │
  └─────────┴──────────┴──────────┴──────────┘

九、考试重点梳理

9.1 必考概念清单

序号	考点	核心记忆点
1	LLM 定义	参数量巨大的语言模型，具备理解和生成能力
2	三阶段训练	预训练（学会语言）→ SFT（学会对话）→ RLHF（对齐偏好）
3	预训练任务	下一个词预测（Next Token Prediction）
4	SFT 作用	把"续写器"变成"指令跟随者"
5	RLHF 流程	训练奖励模型 → PPO强化学习优化 → 对齐人类偏好
6	Prompt 工程	角色设定+任务描述+输入数据+输出格式+约束条件
7	思维链（CoT）	让模型"一步步想"，显著提升推理能力
8	Token	LLM处理文本的最小单位
9	Temperature	控制输出随机性，0=确定性，越高越随机
10	RAG	检索增强生成，外挂知识库减少幻觉
11	幻觉	大模型编造看似合理但错误的信息
12	Fine-tuning vs RAG	微调改风格/行为，RAG更新知识

9.2 易错题汇总

❌ “GPT-3 的训练只需要几周时间”
✅ GPT-3 训练需要数周，但预训练数据收集和清洗往往需要数月甚至更久

❌ “RLHF 是用人工直接修改模型参数”
✅ RLHF 是用人类偏好数据训练奖励模型，再用 PPO 算法自动优化 LLM 参数

❌ “Temperature 越高输出越准确”
✅ Temperature 越低输出越确定/准确；越高输出越随机/有创意

❌ “RAG 和微调效果完全一样”
✅ RAG 适合知识更新，微调适合风格/行为调整，两者解决不同问题

❌ “大模型完全不会犯错”
✅ 大模型存在幻觉问题，可能编造不存在的事实，需要 RAG + 人工审核来缓解

十、Python 代码示例

10.1 使用 OpenAI API 调用大模型

from openai import OpenAI

client = OpenAI(api_key="your-api-key")

# 基础对话
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "你是一个专业的AI知识助手"},
        {"role": "user", "content": "用简单的语言解释什么是Transformer"}
    ],
    temperature=0.7,    # 控制随机性
    max_tokens=500      # 限制输出长度
)

print(response.choices[0].message.content)

10.2 构建 RAG 系统（简化版）

from sentence_transformers import SentenceTransformer
import numpy as np

# 1. 加载向量模型
encoder = SentenceTransformer("all-MiniLM-L6-v2")

# 2. 构建知识库
documents = [
    "人工智能训练师三级考试分为理论知识和实操技能两部分",
    "报名需要通过官方评价机构，不能直接报名",
    "考试合格后可申请技能补贴，金额因地区而异"
]

# 3. 文档向量化
doc_embeddings = encoder.encode(documents)

# 4. 用户提问
query = "考试考什么内容？"
query_embedding = encoder.encode([query])

# 5. 计算相似度，检索最相关文档
similarities = np.dot(doc_embeddings, query_embedding.T)
top_doc_idx = np.argmax(similarities)

# 6. 组装 Prompt + 文档，发送给 LLM
retrieved_doc = documents[top_doc_idx]
prompt = f"""
根据以下参考资料回答用户问题：
参考资料：{retrieved_doc}
用户问题：{query}
请只基于参考资料回答，如果资料中没有相关信息请说明。
"""

print(f"检索到的文档：{retrieved_doc}")
print(f"Prompt：{prompt.strip()}")

10.3 Prompt 模板封装

def create_prompt(role, task, context=None, format_req=None, constraints=None):
    """构建高质量 Prompt 的模板函数"""
    parts = [f"# 角色\n{role}\n"]
    parts.append(f"# 任务\n{task}\n")

    if context:
        parts.append(f"# 输入信息\n{context}\n")

    if format_req:
        parts.append(f"# 输出格式\n{format_req}\n")

    if constraints:
        parts.append(f"# 约束条件\n{constraints}\n")

    return "\n".join(parts)


# 使用示例
prompt = create_prompt(
    role="你是一位资深数据标注审核员",
    task="请检查以下标注数据是否存在错误，并说明理由",
    context="原文：今天天气真好\n情感标注：负面",
    format_req="请用以下格式输出：\n1. 是否有误\n2. 错误原因\n3. 正确标注",
    constraints="不要超过100字，只输出分析结果"
)

print(prompt)

十一、本文知识点思维导图

本文小结：

大语言模型的训练是一个三阶段流程：预训练（学会语言）→ SFT（学会对话）→ RLHF（学会讨好人类）。作为训练师，你需要掌握 Prompt 工程的五大要素、RAG 与微调的适用场景、以及幻觉等关键局限性的应对方法。

下一篇：《人工智能伦理与安全基础》——AI 伦理规范、数据隐私、安全风险，构建负责任的 AI。

最后更新：2026年4月 | 专栏：人工智能训练师三级备考全攻略

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

让 Codex 桌面版拥抱 DeepSeek-V4：协议桥接与模型网关接入实践

4SAPI 提供了一套标准的 Chat Completions 接口，完全兼容 DeepSeek V4 Pro 等模型，使用时只需将 base URL 和密钥替换为平台分配的值即可。这样一来，既保留了桥接层的协议转换能力，又获得了网关带来的额外弹性。这样的模型网关，则进一步提升了链路的稳定性和密钥管理的便捷度，尤其适合团队或对服务可用性有更高要求的场景。│Codex 桌面版│ ──────────

AI Agent技术社区

别再迷信“突破限制”：Gemini 3.5-flash 边界测试实战复盘

AI Agent技术社区

Hermes Agent 上下文压缩机制深度剖析：长对话场景下的有损压缩策略

大语言模型的上下文窗口是有限资源。在长对话场景中，Token 数量不可避免地逼近模型的上下文长度上限，此时系统面临两难选择：截断历史导致信息丢失，或超出限制导致 API 报错。Hermes Agent 的上下文压缩引擎（`ContextCompressor`）实现了一套三阶段有损压缩算法，在保持对话连续性的同时将 Token 消耗控制在安全阈值内。本文从源码层面详细分析该机制的算法设计、边界处理、

AI Agent技术社区

所有评论(0)

查看更多评论

白话机器学习

@zy_dreamer

已为社区贡献4条内容

知识体系篇-人工智能基础知识（05）大语言模型（LLM）原理与应用：从 GPT 到 ChatGPT，一篇彻底搞懂

白话机器学习

大语言模型（LLM）原理与应用：从 GPT 到 ChatGPT，一篇彻底搞懂

前言：为什么大模型是考试重中之重？

一、什么是大语言模型？

1.1 定义与核心特征

1.2 LLM 的核心能力

二、LLM 的发展时间线

三、LLM 的训练流程

3.1 三阶段训练全景图

3.2 阶段一：预训练详解

3.3 阶段二：监督微调（SFT）

3.4 阶段三：RLHF（基于人类反馈的强化学习）

四、Prompt Engineering（提示工程）

4.1 什么是 Prompt？

4.2 Prompt 的核心要素

4.3 常见 Prompt 技巧

五、LLM 的关键技术

5.1 Token 与分词器

5.2 Temperature（温度参数）

5.3 Top-P 与 Top-K 采样

5.4 RAG（检索增强生成）

5.5 Fine-tuning（微调）vs RAG

六、主流大模型对比

6.1 国际大模型

6.2 国产大模型

七、LLM 的局限性与挑战

7.1 幻觉（Hallucination）

7.2 其他核心挑战

八、LLM 的典型应用场景

九、考试重点梳理

9.1 必考概念清单

9.2 易错题汇总

十、Python 代码示例

10.1 使用 OpenAI API 调用大模型

10.2 构建 RAG 系统（简化版）

10.3 Prompt 模板封装

十一、本文知识点思维导图

所有评论(0)

温馨提示：您尚未绑定手机号

白话机器学习