大模型关键技术:别被术语吓到,其实逻辑很简单

做AI产品经理,要不要懂大模型的底层技术?我的观点是:不用会写代码,但必须能跟算法团队"对上话"。你不需要知道反向传播的数学推导,但如果你不知道Transformer是什么、微调跟预训练什么关系、Temperature参数调高会怎样——那你跟算法同学的沟通就是鸡同鸭讲。

这篇文章把我认为做AI产品必须理解的技术底层逻辑梳理一遍,用最简单的话讲清楚。


一、大模型到底是什么?一句话就够了

大模型 = 把世界知识装进神经网络的超级大脑 + 超强的生成能力。

传统深度神经网络像"发动机"——只做一件事(图像识别、情感分析)。大模型像"整辆自动驾驶汽车"——有强大的语言引擎、巨大的知识地图、超强适配能力,能一车多用。

深度神经网络 大模型
参数量 几十万~几千万 亿级、百亿甚至千亿
任务范围 单一任务 多任务通用
训练数据 小规模结构化 万亿token级别
是否理解语言 需要专门设计 内建语言能力
举例 图像分类器 GPT-4、Claude、通义千问

二、大模型的三步走:读书→做题→改作文

大模型的训练过程,用一句话概括:预训练像"读万卷书",微调像"做习题",RLHF是"老师讲评改风格"。

Step 1:预训练——读遍全世界的书

喂给模型海量互联网文本(维基百科、新闻、小说、代码……),让它学会"预测下一个词"。

输入:"我今天心情特别" → 预测下一个词是"好"还是"糟糕"

结果:模型掌握了语言能力+世界常识+模式规律,但它还不知道你要它干什么。

Step 2:指令微调(SFT)——教它听人话

用人工写好的"问题-好答案"对来训练模型,让它学会"执行任务、听懂指令"。

比如:

  • 指令:"请写一首五言绝句"
  • 回答:"日落江湖白,潮来天地青……"

微调前后的能力对比:

能力 预训练模型 微调后模型
语言能力
任务理解 ✅ 增强
风格控制 ✅ 有语气、有风格
指令执行 ✅ 能写、能答、能翻译

Step 3:RLHF——教它"让人喜欢"

这一步分两小步:

  1. 训练奖励模型:让人类对模型的多个回答打分,训练出一个"评分器"
  2. 强化学习优化(PPO):用评分器反向优化模型——得分高的回答被强化,得分低的被惩罚

我的理解:预训练给了模型"知识",SFT给了模型"任务能力",RLHF给了模型"人类偏好"。 三步缺一不可,少一步模型都不好用。

三、Transformer:大模型的地基

所有主流大模型(GPT、BERT、Claude、Qwen……)都基于Transformer架构。你不需要会实现它,但要知道它解决了什么问题。

Transformer解决了什么?

传统模型有两个致命问题:

  1. 只能一个词一个词读,不能并行,速度慢
  2. 长句子越往后越记不住前面,长依赖丢失

Transformer干了什么?让模型一次性"扫一眼全文",每个词都能关注到和自己相关的所有其他词。

核心机制叫"自注意力"(Self-Attention):

"她把苹果给了小明,因为他饿了。"
人类知道"他"是"小明"——自注意力机制让"他"去关注整句话,发现"小明"和"饿"最相关,就能正确理解指代关系。

两大分支:BERT和GPT

Transformer有两个核心部件:Encoder(编码器,负责"理解")和Decoder(解码器,负责"生成")

BERT GPT
用了Transformer的哪部分 只用Encoder 只用Decoder
擅长什么 理解:分类、抽取、情感分析 生成:对话、续写、创作
举例 "这句话是积极还是消极?" "我今天心情很好,所以我……"(续写)

那ChatGPT只用Decoder,没有Encoder怎么理解意图? 答案是:它把"理解"也变成了"生成"——比如用户说"我想看明天天气",模型生成"用户意图是查询天气",一切任务都可以转成生成。

还有同时用Encoder+Decoder的模型(如Google的T5),兼顾理解和生成,适合多任务处理。


四、上下文长度:模型的"短期记忆容量"

上下文长度就是模型一次能"看见"多少个token。64k tokens ≈ 5万汉字。

场景 能力
阅读长文档 一次输入1-2万字报告,无需拆分
多轮对话 保留几十轮历史,理解上下文一致性
RAG 从知识库引入更多文段,提升回答准确性
AI编程 输入完整项目代码+报错信息+提问

超出上下文长度怎么办? 直接截断,模型只读前64k个token。所以产品设计时要注意:

需要考虑的问题 建议
Prompt构造 控制token数,防止超限截断丢信息
多轮对话 对历史内容做摘要后再塞进Prompt
成本控制 上下文越长推理越贵,不要无脑塞文档

五、参数、温度、随机性:三个必须理解的产品参数

5.1 参数量:模型的"脑容量"

7B = 70亿参数,60B = 600亿参数。

小模型(<13B) 大模型(60B+)
类比 高中生 博士生
知识量
推理能力
部署成本 低,手机也能跑 高,需GPU/云端
推理速度

但参数多不等于一定好! "小模型+好微调+好Prompt"的效果可能比"大模型裸用"还好。越大的模型推理越慢、成本越高,要根据业务场景选,不是越大越好。

5.2 为什么大模型每次回答都不一样?

因为模型输出的是概率分布,不是唯一答案。

比如预测"举杯邀明月,对影成__"下一个词:

概率
"三人" 70%
"双影" 20%
"孤影" 9%
"烤鱼" 1%

如果永远选最高概率的70%,每次都是"三人"——稳定但无聊。按概率采样,才能有变化、有创意、更像人。

5.3 Temperature:控制"随机性"的旋钮

Temperature 效果
0 极度保守,永远选最高概率词(几乎固定输出)
0.7 默认推荐,稍有随机性,自然稳定
1.0+ 高随机性,输出丰富但可能跑偏
>1.5 基本疯了,容易出幻觉

产品设计建议: 事实性任务(法律、医疗、财务)用低温度,创作性任务(文案、小说)用高温度。这不是技术细节,是产品体验的关键参数。


六、微调的两种方式:全量 vs LoRA

微调就是把通用大模型变成"你的行业专家"。

全量微调 LoRA
做了什么 修改模型所有参数 只训练插入的小模块
效果 最强 够用
成本 很高、很慢 轻量、可部署
多任务 困难 可共存(多个LoRA插件)

我的观察:多数企业实际用的是LoRA。 因为全量微调动不动就要几十万到上百万的训练成本,而LoRA只需要很少的算力和数据,就能在特定任务上达到不错的效果。除非你的场景极其特殊、数据量极大,否则LoRA是更务实的选择。

微调的超参数(训练轮数、学习率、批量大小)是算法同学的事,PM不需要管——但你至少要知道这些概念在说什么,不然开会时一脸懵。


七、Embedding向量:让机器"算"出语义

Embedding就是把文字/图片/物体转成数字向量,让机器能"计算"语义。

  • "苹果" → [0.12, -1.3, 0.75, ...]
  • "香蕉" → [0.10, -1.2, 0.72, ...]

关键特性:语义相近的词,向量也相近。 "猫"和"狗"的向量距离小,"猫"和"飞机"的距离大。用余弦相似度就能判断两个文本/商品/用户是否相似。

这跟产品有什么关系? RAG系统的核心——从知识库中"召回"相关文档,靠的就是Embedding向量的相似度计算。你理解了这一层,就理解了RAG为什么能"找对答案"。


八、大模型的三大局限:产品经理必须知道的坑

  • "苹果" → [0.12, -1.3, 0.75, ...]
  • "香蕉" → [0.10, -1.2, 0.72, ...]

关键特性:语义相近的词,向量也相近。 "猫"和"狗"的向量距离小,"猫"和"飞机"的距离大。用余弦相似度就能判断两个文本/商品/用户是否相似。

这跟产品有什么关系? RAG系统的核心——从知识库中"召回"相关文档,靠的就是Embedding向量的相似度计算。你理解了这一层,就理解了RAG为什么能"找对答案"。


八、大模型的三大局限:产品经理必须知道的坑

局限1:幻觉——模型会"一本正经地胡说"

这是大模型最被诟病的问题,也是做AI产品时最容易翻车的地方。模型不知道自己不知道,它会把错误信息说得跟真的一样。

对策: RAG外挂知识库约束答案来源 + 低温度减少随机性 + 人工兜底校验

局限2:自进化和个性化——模型没有"个体记忆"

大模型很难区分三件事:

类别 示例 问题
新知识 "OpenAI最新发布了什么?" 模型必须持续学习新数据
错误反馈 用户说"你错了"但其实是用户搞错 模型容易误学、变差
个性偏好 "我喜欢用表格回答" 模型需要"只对你变聪明"

个性化更难:给A用户调好了,B用户可能体验变差;每个用户微调一套模型?存储和部署成本直接爆炸。

对策: 用Prompt注入用户偏好 + RAG解决知识更新 + Agent执行个性化任务

局限3:多模态仍在"摸黑"

文本大模型已经跑通了商业落地,但多模态(同时处理文本+图像+语音+视频)还处在"基础能力预训练+模态对齐"阶段。为什么难?

  1. 不同模态语义空间不统一:图像是二维像素,文本是线性token,对齐极难
  2. 高质量对齐数据稀缺:文本数据丰富,图文/音图/视频+文字的标注数据非常少
  3. 训练方式缺乏统一标准:评估方法也没有共识

我的判断:文本大模型的商业范式已经跑通了,但多模态大模型还需要等一等。 如果你的产品需要多模态能力,现阶段更务实的做法是"文本大模型+专业模态模型"组合,而不是赌一个多模态大模型解决所有问题。


九、开源 vs 闭源:产品选型的核心决策

开源模型 闭源模型
参数/结构 公开 不公开
部署方式 本地/私有云都可以 只能通过API
成本 一次部署后无调用费 按token收费
定制性 可微调、剪枝、合并 仅限API功能
数据安全 可私有化部署,数据不出网 输入上传云端
举例 LLaMA、Qwen、Baichuan、Mistral GPT-4、Claude、Gemini

我的观点:

  • 对数据安全要求高的场景(金融、医疗、政务)→ 开源+私有化部署,数据不出网
  • 追求效果上限的场景(通用问答、复杂推理)→ 闭源API,当前GPT-4/Claude效果仍领先
  • 成本敏感的场景 → 开源模型一次投入长期使用,闭源按调用量持续花钱

不是非此即彼,很多企业实际的做法是"混合部署":核心业务用开源私有化,通用能力调闭源API。


写在最后

大模型的技术体系看起来很庞杂,但剥开术语外衣,核心逻辑其实就几件事:

  1. 训练逻辑:读书(预训练)→ 做题(微调)→ 改作文(RLHF)
  2. 架构基础:Transformer让模型能"看全文"、能并行处理
  3. 产品参数:上下文长度管记忆、参数量管能力、Temperature管随机性
  4. 核心局限:幻觉、没有个体记忆、多模态还没跑通

做AI产品经理,理解到这一层就够了。 更深的技术细节留给算法同学,但如果你连这些都不知道,产品设计时就会做出错误的决策——比如在需要确定性的场景用了高Temperature,在需要私有化部署的场景选了闭源API,在上下文长度不够时硬塞长文档。

技术不是你的饭碗,但技术认知是你的底线

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐