大语言模型(LLM)原理与应用:从 GPT 到 ChatGPT,一篇彻底搞懂

专栏:人工智能训练师三级备考全攻略
所属模块:卷三·知识体系 — 人工智能基础
考试关联度:⭐⭐⭐⭐⭐(超级高频,选择题+判断题,约 10~15 题)


前言:为什么大模型是考试重中之重?

2022年底 ChatGPT 爆火之后,大语言模型(Large Language Model,LLM)已经成为 AI 行业最大的变革力量。作为人工智能训练师,你的日常工作——数据标注、Prompt 优化、模型评测、RLHF 数据构建——几乎全部围绕大模型展开。

考试中,LLM 相关题目占比极高,而且涉及面广:从 Transformer 原理到训练流程,从 Prompt 技巧到伦理安全。这篇文章帮你系统梳理。


一、什么是大语言模型?

1.1 定义与核心特征

大语言模型(LLM)= 参数量巨大的语言模型

  "大"体现在:
  ┌──────────────────────────────────────┐
  │  参数量:数十亿到数万亿               │
  │  训练数据:数万亿 Token               │
  │  训练成本:数百万到数千万美元          │
  │  训练时间:数周到数月                 │
  └──────────────────────────────────────┘

  规模感:
  GPT-1(2018):  1.17亿参数    ≈ 几本书
  GPT-2(2019):  15亿参数      ≈ 一座图书馆
  GPT-3(2020):  1750亿参数    ≈ 整个互联网文本
  GPT-4(2023):  未公开(估计>1万亿)≈ ???

1.2 LLM 的核心能力

LLM 的能力全景:

  ┌──────────────────────────────────────────────┐
  │              大语言模型能力                    │
  ├────────────┬──────────┬──────────┬───────────┤
  │ 语言理解    │ 语言生成  │ 推理能力  │ 工具使用   │
  │ 情感分析    │ 文章写作  │ 逻辑推理  │ 代码执行   │
  │ 信息抽取    │ 对话交互  │ 数学计算  │ 搜索增强   │
  │ 文本摘要    │ 翻译     │ 因果推断  │ API调用   │
  │ 问答系统    │ 创意写作  │ 常识推理  │ 插件生态   │
  └────────────┴──────────┴──────────┴───────────┘

二、LLM 的发展时间线

大语言模型演进时间线:

2018   GPT-1          验证"预训练+微调"范式可行
  │
2019   GPT-2          15亿参数,展示零样本生成能力
  │
2020   GPT-3          1750亿参数,"少样本学习"惊艳世界
  │
2022   ChatGPT        RLHF 对齐人类偏好,引爆全球
  │
2023   GPT-4          多模态,考试能力接近人类水平
  │     LLaMA         Meta开源,开源大模型浪潮
  │     ChatGLM       清华/智谱,国产开源代表
  │     文心一言      百度,国产商业代表
  │
2024   GPT-4o         全模态实时交互
  │     Claude 3      Anthropic 长上下文领先
  │     GLM-4         智谱,国产能力提升
  │
2025   DeepSeek       国产高性价比推理模型
  │
2026   多模态+Agent    大模型进入自主代理时代

三、LLM 的训练流程

3.1 三阶段训练全景图

LLM 训练的三个阶段:

  阶段一:预训练(Pre-training)          阶段二:监督微调(SFT)       阶段三:对齐(RLHF)
  ┌────────────────────┐             ┌──────────────────┐          ┌──────────────────┐
  │ 海量无标注文本       │             │ 高质量对话数据     │          │ 人类偏好反馈       │
  │ 万亿级 Token        │             │ 数万到数十万条     │          │ 奖励模型训练       │
  │                    │             │                  │          │                  │
  │ 目标:学会语言规律   │    →        │ 目标:学会对话格式  │    →     │ 目标:对齐人类偏好   │
  │ 花费:数百万美元     │             │ 花费:数万美元     │          │ 花费:数万美元      │
  │ 时间:数周到数月     │             │ 时间:数天到数周    │          │ 时间:数天         │
  │                    │             │                  │          │                  │
  │ 结果:基础模型       │             │ 结果:对话模型       │          │ 结果:最终可用模型   │
  │ (会续写但不听话)   │             │ (会对话但不够好)  │          │ (既好用又安全)    │
  └────────────────────┘             └──────────────────┘          └──────────────────┘

3.2 阶段一:预训练详解

预训练的核心:下一个词预测(Next Token Prediction)

  输入序列:  "人工智能是" [MASK]
  模型预测:  "人工智能是" → "一"
  继续预测:  "人工智能是一" → "门"
  继续预测:  "人工智能是一门" → "学科"

  每一步:根据前面的所有词,预测下一个最可能的词
  通过万亿级文本的反复训练,模型学会了:
  - 语法规则
  - 常识知识
  - 推理能力
  - 代码编写
  - 多语言理解

预训练数据来源

数据来源 比例(典型) 特点
互联网网页(Common Crawl) ~60% 数量最大,质量参差不齐
书籍 ~15% 质量高,逻辑性强
维基百科 ~5% 准确可靠
代码(GitHub) ~10% 逻辑推理能力强
论文/学术文献 ~5% 专业知识
对话/社交媒体 ~5% 对话能力

3.3 阶段二:监督微调(SFT)

监督微调:用高质量的"指令-回答"对来训练

  训练数据示例:

  指令(Prompt):         回答(Response):
  ┌───────────────────┐   ┌────────────────────────┐
  │"请解释什么是机器    │   │"机器学习是人工智能的    │
  │ 学习"              │   │ 一个分支,它让计算机从  │
  └───────────────────┘   │ 数据中自动学习规律..."   │
                           └────────────────────────┘
  ┌───────────────────┐   ┌────────────────────────┐
  │"将以下句子翻译成    │   │"Artificial intelligence│
  │ 英文:人工智能"     │   │ is..."                 │
  └───────────────────┘   └────────────────────────┘
  ┌───────────────────┐   ┌────────────────────────┐
  │"写一首关于春天的诗" │   │"春风拂面花千树,细雨    │
  │                    │   │ 润物细无声..."          │
  └───────────────────┘   └────────────────────────┘

  SFT 让模型从"文本续写器"变成"指令跟随者"

3.4 阶段三:RLHF(基于人类反馈的强化学习)

RLHF 是让 ChatGPT "变好用"的关键技术,考试必考。

RLHF 三步流程:

  Step 1:训练奖励模型(Reward Model)
  ┌──────────────────────────────────────┐
  │ 同一个指令,模型生成多个回答:          │
  │                                      │
  │ 回答A:"机器学习是一种方法。"          │
  │ 回答B:"机器学习是AI的核心分支,      │
  │         它通过数据驱动的方式让计算机    │
  │         自动学习和改进..."             │
  │ 回答C:"我不知道。"                    │
  │                                      │
  │ 人类排序:B > A > C                   │
  │ 用这些偏好数据训练奖励模型             │
  │ → 奖励模型能给任意回答打分             │
  └──────────────────────────────────────┘

  Step 2:用 PPO 强化学习优化
  ┌──────────────────────────────────────┐
  │ 生成回答 → 奖励模型打分 → 调整参数    │
  │                                      │
  │ 目标:生成让奖励模型给出高分的回答     │
  │      = 生成人类更喜欢的回答            │
  └──────────────────────────────────────┘

  Step 3:迭代
  ┌──────────────────────────────────────┐
  │ 多轮 RLHF → 模型越来越符合人类偏好    │
  └──────────────────────────────────────┘

RLHF 核心概念对比

概念 含义 角色
SFT 模型 经过指令微调的模型 策略(Policy),生成回答
奖励模型(RM) 学习人类偏好的模型 评委,给回答打分
PPO 算法 近端策略优化 训练方法,调整 SFT 模型参数
KL 惩罚 防止模型偏离太远 安全阀,保持回答的多样性

四、Prompt Engineering(提示工程)

4.1 什么是 Prompt?

Prompt = 你给大模型的"指令/提示/上下文"

  一个好的 Prompt 决定了输出质量:
  ❌ 差 Prompt:"写文章"
  ✅ 好 Prompt:"你是一位资深科技记者,请为CSDN读者写一篇
             800字的AI趋势分析文章,要求逻辑清晰、数据详实、
             包含至少3个案例,面向有技术背景的开发者"

4.2 Prompt 的核心要素

高质量 Prompt 的结构:

  ┌──────────────────────────────────────────┐
  │ ① 角色设定(Role)                       │
  │    "你是一位专业的数据分析师"              │
  │                                          │
  │ ② 任务描述(Task)                        │
  │    "请分析以下销售数据,找出趋势"          │
  │                                          │
  │ ③ 输入数据(Context/Input)               │
  │    "数据如下:Q1=120万, Q2=150万..."      │
  │                                          │
  │ ④ 输出格式(Format)                      │
  │    "请用表格形式输出,包含季度/销售额/增长率"│
  │                                          │
  │ ⑤ 约束条件(Constraint)                  │
  │    "不超过300字,不要使用专业术语"         │
  └──────────────────────────────────────────┘

4.3 常见 Prompt 技巧

技巧 说明 示例
少样本(Few-shot) 给几个示例让模型模仿 “正面:好评;负面:差评 → 这条是?”
思维链(CoT) 让模型"一步步想" “请一步一步推理,展示你的思考过程”
角色扮演 设定模型的角色身份 “你是一位资深面试官…”
输出约束 限制输出格式/长度 “用JSON格式输出,不超过200字”
系统提示词 设定全局行为规则 System: “你是一个有礼貌但直接的助手”

思维链(Chain of Thought)示例

不用 CoT:
  Q:"一个商店打8折后再降价20%,最终是原价的多少?"
  A(可能错误):"40%"  ← 直接猜错

用 CoT:
  Q:"一个商店打8折后再降价20%,最终是原价的多少?请一步步思考。"
  A:
    ① 原价设为100元
    ② 打8折后:100 × 0.8 = 80元
    ③ 再降20%:80 × (1-0.2) = 80 × 0.8 = 64元
    ④ 最终是原价的:64/100 = 64%
  → 正确!

五、LLM 的关键技术

5.1 Token 与分词器

Token = LLM 处理文本的最小单位

  文本:"大语言模型很强大"
  Token化:["大", "语言", "模型", "很", "强大"]
           或 ["大语", "言模", "型很", "强大"](取决于分词器)

  英文 Token 更细:
  "ChatGPT is great" → ["Chat", "G", "PT", " is", " great"]

  关键概念:
  ┌──────────────────────────────────────────┐
  │ Tokenizer(分词器):文本 → Token ID序列  │
  │                                          │
  │ "Hello" → [15496]                        │
  │ "世界"  → [702, 1062]                    │
  │                                          │
  │ 上下文窗口(Context Window):             │
  │ 模型一次能处理的最大 Token 数              │
  │ GPT-3: 4K    GPT-4: 128K                 │
  │ Claude 3: 200K    GLM-4: 128K            │
  └──────────────────────────────────────────┘

5.2 Temperature(温度参数)

Temperature 控制输出的随机性/创造性:

  Temperature = 0(确定性):
    每次选概率最高的词 → 输出稳定、可预测
    适用:代码生成、事实问答、数据提取

  Temperature = 0.7(平衡):
    适度随机 → 兼顾准确性和多样性
    适用:对话、写作、一般任务

  Temperature = 1.5(高随机):
    高度随机 → 创意性强但可能不连贯
    适用:创意写作、头脑风暴

  直觉理解:
  ┌──────────────────────────────────────┐
  │ 概率分布:                            │
  │                                      │
  │ T=0:  [0.9, 0.05, 0.05]  几乎选第一个│
  │ T=1:  [0.4, 0.35, 0.25] 有一定随机性 │
  │ T=2:  [0.25, 0.25, 0.25] 完全随机   │
  └──────────────────────────────────────┘

5.3 Top-P 与 Top-K 采样

控制输出多样性的两种方法:

  Top-K(固定数量):
  ┌─────────────────────────┐
  │ 所有词按概率排序          │
  │ 只从前K个中采样           │
  │ K=50: 只从前50个候选词中选│
  └─────────────────────────┘

  Top-P(动态阈值):
  ┌─────────────────────────┐
  │ 按概率从高到低累加        │
  │ 当累积概率超过P时停止     │
  │ P=0.9: 选够前90%概率的词  │
  └─────────────────────────┘

  对比:
  Top-K: 简单粗暴,固定候选数量
  Top-P: 更灵活,概率集中时少选,分散时多选

5.4 RAG(检索增强生成)

RAG 的核心思想:给大模型外挂一个"知识库"

  没有RAG:
  用户提问 → LLM → 回答
  (只能用训练数据中的知识,可能过时或编造)

  有RAG:
  用户提问 → 检索知识库 → 取回相关文档 → LLM+文档 → 回答
  (可以用最新知识,减少编造)

  ┌──────────┐    ┌──────────────┐    ┌──────────┐
  │ 用户问题  │──→ │ 向量数据库    │──→ │ 相关文档  │
  │ "2026年   │    │ (知识库)     │    │ 片段     │
  │  AI趋势"  │    │              │    │          │
  └──────────┘    └──────────────┘    └────┬─────┘
                                          │
                                          ↓
                                     ┌──────────┐
                                     │   LLM    │
                                     │ 结合文档  │──→ 精准回答
                                     │ 生成回答  │
                                     └──────────┘

  RAG 的优势:
  ✅ 知识实时更新(更新知识库即可)
  ✅ 减少幻觉(有据可查)
  ✅ 可追溯来源(标注引用文档)

5.5 Fine-tuning(微调)vs RAG

对比维度 RAG(检索增强) Fine-tuning(微调)
适用场景 知识密集型任务 风格/格式/行为调整
知识更新 ✅ 实时更新文档即可 ❌ 需重新训练
成本 较低(构建向量库) 较高(GPU训练)
幻觉控制 ✅ 有据可查 ❌ 仍可能编造
数据需求 文档即可 需要指令-回答对
典型应用 企业知识问答、客服 领域适配、风格定制

六、主流大模型对比

6.1 国际大模型

模型 机构 参数量 上下文 核心特点
GPT-4o OpenAI 未公开 128K 多模态、实时语音、综合最强
Claude 3.5 Anthropic 未公开 200K 长文本、代码能力强、安全对齐
Gemini Google 未公开 1M 原生多模态、Google生态集成
LLaMA 3 Meta 8B~405B 8K~128K 开源标杆、社区生态丰富
Mistral Mistral AI 7B~123B 32K~128K 开源、高效推理

6.2 国产大模型

模型 机构 参数量 上下文 核心特点
文心一言 4.0 百度 未公开 128K 综合能力强、中文理解好
通义千问 阿里 7B~72B 32K~1M 开源、长上下文领先
GLM-4 智谱 9B 128K 开源、中英双语强
DeepSeek-V3 DeepSeek 671B(MoE) 128K 高性价比、MoE架构
讯飞星火 科大讯飞 - 128K 语音+多模态、教育场景
Kimi 月之暗面 - 200K 超长上下文、文档处理

七、LLM 的局限性与挑战

7.1 幻觉(Hallucination)

什么是幻觉?
  大模型"一本正经地胡说八道"

  用户:"林黛玉倒拔垂杨柳是在第几回?"
  LLM:"在《红楼梦》第七回,林黛玉在大观园中
        倒拔垂杨柳,展示了她的过人力量..."

  ❌ 完全编造!倒拔垂杨柳的是鲁智深(《水浒传》)

  幻觉的成因:
  ┌──────────────────────────────────────┐
  │ ① 训练数据中的噪声和矛盾              │
  │ ② 模型本质是概率预测,不"理解"事实    │
  │ ③ 对未知问题倾向生成看似合理的回答    │
  │ ④ 缺乏外部知识检索机制               │
  └──────────────────────────────────────┘

  缓解方法:
  ✅ RAG(检索增强)
  ✅ Prompt 中加"如果不确定请说不知道"
  ✅ 交叉验证(多模型对比)
  ✅ 人类审核

7.2 其他核心挑战

挑战 说明 影响
幻觉 编造不存在的信息 可信度下降
时效性 训练数据截止,不知道最新事件 知识过时
偏见 训练数据中的社会偏见被继承 输出歧视性内容
安全风险 可能生成有害内容 被恶意利用
成本高昂 训练和推理算力需求巨大 部署门槛高
长文本遗忘 超长输入时前面内容被忽略 长文档处理效果差
可解释性差 难以解释为什么生成某个回答 信任和调试困难

八、LLM 的典型应用场景

大模型应用矩阵:

  ┌─────────┬──────────┬──────────┬──────────┐
  │         │  文本     │  代码     │  多模态   │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 消费者   │ ChatGPT  │ Copilot  │ GPT-4o   │
  │         │ 文心一言  │ Cursor   │  文心一言  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 企业    │ 智能客服  │ 代码审查  │ OCR+分析  │
  │         │ 知识问答  │ 代码生成  │  视觉问答  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 开发者   │ API调用   │ AI编程助手│ 多模态API │
  │         │ Agent开发 │ 自动测试  │  应用构建  │
  ├─────────┼──────────┼──────────┼──────────┤
  │ 垂直行业 │ 法律助手  │ 数据分析  │ 医学影像  │
  │         │ 金融分析  │ 自动化脚本│ 工业质检  │
  └─────────┴──────────┴──────────┴──────────┘

九、考试重点梳理

9.1 必考概念清单

序号 考点 核心记忆点
1 LLM 定义 参数量巨大的语言模型,具备理解和生成能力
2 三阶段训练 预训练(学会语言)→ SFT(学会对话)→ RLHF(对齐偏好)
3 预训练任务 下一个词预测(Next Token Prediction)
4 SFT 作用 把"续写器"变成"指令跟随者"
5 RLHF 流程 训练奖励模型 → PPO强化学习优化 → 对齐人类偏好
6 Prompt 工程 角色设定+任务描述+输入数据+输出格式+约束条件
7 思维链(CoT) 让模型"一步步想",显著提升推理能力
8 Token LLM处理文本的最小单位
9 Temperature 控制输出随机性,0=确定性,越高越随机
10 RAG 检索增强生成,外挂知识库减少幻觉
11 幻觉 大模型编造看似合理但错误的信息
12 Fine-tuning vs RAG 微调改风格/行为,RAG更新知识

9.2 易错题汇总

❌ “GPT-3 的训练只需要几周时间”
✅ GPT-3 训练需要数周,但预训练数据收集和清洗往往需要数月甚至更久


❌ “RLHF 是用人工直接修改模型参数”
✅ RLHF 是用人类偏好数据训练奖励模型,再用 PPO 算法自动优化 LLM 参数


❌ “Temperature 越高输出越准确”
✅ Temperature 越低输出越确定/准确;越高输出越随机/有创意


❌ “RAG 和微调效果完全一样”
✅ RAG 适合知识更新,微调适合风格/行为调整,两者解决不同问题


❌ “大模型完全不会犯错”
✅ 大模型存在幻觉问题,可能编造不存在的事实,需要 RAG + 人工审核来缓解


十、Python 代码示例

10.1 使用 OpenAI API 调用大模型

from openai import OpenAI

client = OpenAI(api_key="your-api-key")

# 基础对话
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "你是一个专业的AI知识助手"},
        {"role": "user", "content": "用简单的语言解释什么是Transformer"}
    ],
    temperature=0.7,    # 控制随机性
    max_tokens=500      # 限制输出长度
)

print(response.choices[0].message.content)

10.2 构建 RAG 系统(简化版)

from sentence_transformers import SentenceTransformer
import numpy as np

# 1. 加载向量模型
encoder = SentenceTransformer("all-MiniLM-L6-v2")

# 2. 构建知识库
documents = [
    "人工智能训练师三级考试分为理论知识和实操技能两部分",
    "报名需要通过官方评价机构,不能直接报名",
    "考试合格后可申请技能补贴,金额因地区而异"
]

# 3. 文档向量化
doc_embeddings = encoder.encode(documents)

# 4. 用户提问
query = "考试考什么内容?"
query_embedding = encoder.encode([query])

# 5. 计算相似度,检索最相关文档
similarities = np.dot(doc_embeddings, query_embedding.T)
top_doc_idx = np.argmax(similarities)

# 6. 组装 Prompt + 文档,发送给 LLM
retrieved_doc = documents[top_doc_idx]
prompt = f"""
根据以下参考资料回答用户问题:
参考资料:{retrieved_doc}
用户问题:{query}
请只基于参考资料回答,如果资料中没有相关信息请说明。
"""

print(f"检索到的文档:{retrieved_doc}")
print(f"Prompt:{prompt.strip()}")

10.3 Prompt 模板封装

def create_prompt(role, task, context=None, format_req=None, constraints=None):
    """构建高质量 Prompt 的模板函数"""
    parts = [f"# 角色\n{role}\n"]
    parts.append(f"# 任务\n{task}\n")

    if context:
        parts.append(f"# 输入信息\n{context}\n")

    if format_req:
        parts.append(f"# 输出格式\n{format_req}\n")

    if constraints:
        parts.append(f"# 约束条件\n{constraints}\n")

    return "\n".join(parts)


# 使用示例
prompt = create_prompt(
    role="你是一位资深数据标注审核员",
    task="请检查以下标注数据是否存在错误,并说明理由",
    context="原文:今天天气真好\n情感标注:负面",
    format_req="请用以下格式输出:\n1. 是否有误\n2. 错误原因\n3. 正确标注",
    constraints="不要超过100字,只输出分析结果"
)

print(prompt)

十一、本文知识点思维导图

大语言模型LLM

定义与特征

参数量数十亿到万亿

海量数据训练

涌现能力

发展时间线

GPT-1验证范式

GPT-3少样本学习

ChatGPT引爆全球

GPT-4多模态

国产模型崛起

训练流程三阶段

预训练Pre-training

下一个词预测

海量无标注文本

学会语言规律

监督微调SFT

指令回答对

续写器变指令跟随者

对齐RLHF

奖励模型

PPO强化学习

对齐人类偏好

Prompt工程

核心要素

角色设定

任务描述

输入数据

输出格式

约束条件

常见技巧

Few-shot少样本

CoT思维链

角色扮演

输出约束

关键技术

Token分词

Temperature温度

Top-K Top-P采样

RAG检索增强

Fine-tuning微调

局限性

幻觉

时效性

偏见

安全风险

成本高昂

主流模型

国际

GPT-4o

Claude

LLaMA

国产

文心一言

通义千问

GLM-4

DeepSeek


本文小结

大语言模型的训练是一个三阶段流程:预训练(学会语言)→ SFT(学会对话)→ RLHF(学会讨好人类)。作为训练师,你需要掌握 Prompt 工程的五大要素、RAG 与微调的适用场景、以及幻觉等关键局限性的应对方法。

下一篇:《人工智能伦理与安全基础》——AI 伦理规范、数据隐私、安全风险,构建负责任的 AI。


最后更新:2026年4月 | 专栏:人工智能训练师三级备考全攻略

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐