【AI产品经理】什么是大模型,我们需要怎么去认识它?
大模型关键技术:别被术语吓到,其实逻辑很简单
做AI产品经理,要不要懂大模型的底层技术?我的观点是:不用会写代码,但必须能跟算法团队"对上话"。你不需要知道反向传播的数学推导,但如果你不知道Transformer是什么、微调跟预训练什么关系、Temperature参数调高会怎样——那你跟算法同学的沟通就是鸡同鸭讲。
这篇文章把我认为做AI产品必须理解的技术底层逻辑梳理一遍,用最简单的话讲清楚。
一、大模型到底是什么?一句话就够了
大模型 = 把世界知识装进神经网络的超级大脑 + 超强的生成能力。
传统深度神经网络像"发动机"——只做一件事(图像识别、情感分析)。大模型像"整辆自动驾驶汽车"——有强大的语言引擎、巨大的知识地图、超强适配能力,能一车多用。
| 深度神经网络 | 大模型 | |
|---|---|---|
| 参数量 | 几十万~几千万 | 亿级、百亿甚至千亿 |
| 任务范围 | 单一任务 | 多任务通用 |
| 训练数据 | 小规模结构化 | 万亿token级别 |
| 是否理解语言 | 需要专门设计 | 内建语言能力 |
| 举例 | 图像分类器 | GPT-4、Claude、通义千问 |
二、大模型的三步走:读书→做题→改作文
大模型的训练过程,用一句话概括:预训练像"读万卷书",微调像"做习题",RLHF是"老师讲评改风格"。
Step 1:预训练——读遍全世界的书
喂给模型海量互联网文本(维基百科、新闻、小说、代码……),让它学会"预测下一个词"。
输入:"我今天心情特别" → 预测下一个词是"好"还是"糟糕"
结果:模型掌握了语言能力+世界常识+模式规律,但它还不知道你要它干什么。
Step 2:指令微调(SFT)——教它听人话
用人工写好的"问题-好答案"对来训练模型,让它学会"执行任务、听懂指令"。
比如:
- 指令:"请写一首五言绝句"
- 回答:"日落江湖白,潮来天地青……"
微调前后的能力对比:
| 能力 | 预训练模型 | 微调后模型 |
|---|---|---|
| 语言能力 | 有 | 有 |
| 任务理解 | 弱 | ✅ 增强 |
| 风格控制 | 无 | ✅ 有语气、有风格 |
| 指令执行 | 弱 | ✅ 能写、能答、能翻译 |
Step 3:RLHF——教它"让人喜欢"
这一步分两小步:
- 训练奖励模型:让人类对模型的多个回答打分,训练出一个"评分器"
- 强化学习优化(PPO):用评分器反向优化模型——得分高的回答被强化,得分低的被惩罚
我的理解:预训练给了模型"知识",SFT给了模型"任务能力",RLHF给了模型"人类偏好"。 三步缺一不可,少一步模型都不好用。
三、Transformer:大模型的地基
所有主流大模型(GPT、BERT、Claude、Qwen……)都基于Transformer架构。你不需要会实现它,但要知道它解决了什么问题。
Transformer解决了什么?
传统模型有两个致命问题:
- 只能一个词一个词读,不能并行,速度慢
- 长句子越往后越记不住前面,长依赖丢失
Transformer干了什么?让模型一次性"扫一眼全文",每个词都能关注到和自己相关的所有其他词。
核心机制叫"自注意力"(Self-Attention):
"她把苹果给了小明,因为他饿了。"
人类知道"他"是"小明"——自注意力机制让"他"去关注整句话,发现"小明"和"饿"最相关,就能正确理解指代关系。
两大分支:BERT和GPT
Transformer有两个核心部件:Encoder(编码器,负责"理解")和Decoder(解码器,负责"生成")。
| BERT | GPT | |
|---|---|---|
| 用了Transformer的哪部分 | 只用Encoder | 只用Decoder |
| 擅长什么 | 理解:分类、抽取、情感分析 | 生成:对话、续写、创作 |
| 举例 | "这句话是积极还是消极?" | "我今天心情很好,所以我……"(续写) |
那ChatGPT只用Decoder,没有Encoder怎么理解意图? 答案是:它把"理解"也变成了"生成"——比如用户说"我想看明天天气",模型生成"用户意图是查询天气",一切任务都可以转成生成。
还有同时用Encoder+Decoder的模型(如Google的T5),兼顾理解和生成,适合多任务处理。
四、上下文长度:模型的"短期记忆容量"
上下文长度就是模型一次能"看见"多少个token。64k tokens ≈ 5万汉字。
| 场景 | 能力 |
|---|---|
| 阅读长文档 | 一次输入1-2万字报告,无需拆分 |
| 多轮对话 | 保留几十轮历史,理解上下文一致性 |
| RAG | 从知识库引入更多文段,提升回答准确性 |
| AI编程 | 输入完整项目代码+报错信息+提问 |
超出上下文长度怎么办? 直接截断,模型只读前64k个token。所以产品设计时要注意:
| 需要考虑的问题 | 建议 |
|---|---|
| Prompt构造 | 控制token数,防止超限截断丢信息 |
| 多轮对话 | 对历史内容做摘要后再塞进Prompt |
| 成本控制 | 上下文越长推理越贵,不要无脑塞文档 |
五、参数、温度、随机性:三个必须理解的产品参数
5.1 参数量:模型的"脑容量"
7B = 70亿参数,60B = 600亿参数。
| 小模型(<13B) | 大模型(60B+) | |
|---|---|---|
| 类比 | 高中生 | 博士生 |
| 知识量 | 少 | 多 |
| 推理能力 | 弱 | 强 |
| 部署成本 | 低,手机也能跑 | 高,需GPU/云端 |
| 推理速度 | 快 | 慢 |
但参数多不等于一定好! "小模型+好微调+好Prompt"的效果可能比"大模型裸用"还好。越大的模型推理越慢、成本越高,要根据业务场景选,不是越大越好。
5.2 为什么大模型每次回答都不一样?
因为模型输出的是概率分布,不是唯一答案。
比如预测"举杯邀明月,对影成__"下一个词:
| 词 | 概率 |
|---|---|
| "三人" | 70% |
| "双影" | 20% |
| "孤影" | 9% |
| "烤鱼" | 1% |
如果永远选最高概率的70%,每次都是"三人"——稳定但无聊。按概率采样,才能有变化、有创意、更像人。
5.3 Temperature:控制"随机性"的旋钮
| Temperature | 效果 |
|---|---|
| 0 | 极度保守,永远选最高概率词(几乎固定输出) |
| 0.7 | 默认推荐,稍有随机性,自然稳定 |
| 1.0+ | 高随机性,输出丰富但可能跑偏 |
| >1.5 | 基本疯了,容易出幻觉 |
产品设计建议: 事实性任务(法律、医疗、财务)用低温度,创作性任务(文案、小说)用高温度。这不是技术细节,是产品体验的关键参数。
六、微调的两种方式:全量 vs LoRA
微调就是把通用大模型变成"你的行业专家"。
| 全量微调 | LoRA | |
|---|---|---|
| 做了什么 | 修改模型所有参数 | 只训练插入的小模块 |
| 效果 | 最强 | 够用 |
| 成本 | 很高、很慢 | 轻量、可部署 |
| 多任务 | 困难 | 可共存(多个LoRA插件) |
我的观察:多数企业实际用的是LoRA。 因为全量微调动不动就要几十万到上百万的训练成本,而LoRA只需要很少的算力和数据,就能在特定任务上达到不错的效果。除非你的场景极其特殊、数据量极大,否则LoRA是更务实的选择。
微调的超参数(训练轮数、学习率、批量大小)是算法同学的事,PM不需要管——但你至少要知道这些概念在说什么,不然开会时一脸懵。
七、Embedding向量:让机器"算"出语义
Embedding就是把文字/图片/物体转成数字向量,让机器能"计算"语义。
- "苹果" → [0.12, -1.3, 0.75, ...]
- "香蕉" → [0.10, -1.2, 0.72, ...]
关键特性:语义相近的词,向量也相近。 "猫"和"狗"的向量距离小,"猫"和"飞机"的距离大。用余弦相似度就能判断两个文本/商品/用户是否相似。
这跟产品有什么关系? RAG系统的核心——从知识库中"召回"相关文档,靠的就是Embedding向量的相似度计算。你理解了这一层,就理解了RAG为什么能"找对答案"。
八、大模型的三大局限:产品经理必须知道的坑
- "苹果" → [0.12, -1.3, 0.75, ...]
- "香蕉" → [0.10, -1.2, 0.72, ...]
关键特性:语义相近的词,向量也相近。 "猫"和"狗"的向量距离小,"猫"和"飞机"的距离大。用余弦相似度就能判断两个文本/商品/用户是否相似。
这跟产品有什么关系? RAG系统的核心——从知识库中"召回"相关文档,靠的就是Embedding向量的相似度计算。你理解了这一层,就理解了RAG为什么能"找对答案"。
八、大模型的三大局限:产品经理必须知道的坑
局限1:幻觉——模型会"一本正经地胡说"
这是大模型最被诟病的问题,也是做AI产品时最容易翻车的地方。模型不知道自己不知道,它会把错误信息说得跟真的一样。
对策: RAG外挂知识库约束答案来源 + 低温度减少随机性 + 人工兜底校验
局限2:自进化和个性化——模型没有"个体记忆"
大模型很难区分三件事:
| 类别 | 示例 | 问题 |
|---|---|---|
| 新知识 | "OpenAI最新发布了什么?" | 模型必须持续学习新数据 |
| 错误反馈 | 用户说"你错了"但其实是用户搞错 | 模型容易误学、变差 |
| 个性偏好 | "我喜欢用表格回答" | 模型需要"只对你变聪明" |
个性化更难:给A用户调好了,B用户可能体验变差;每个用户微调一套模型?存储和部署成本直接爆炸。
对策: 用Prompt注入用户偏好 + RAG解决知识更新 + Agent执行个性化任务
局限3:多模态仍在"摸黑"
文本大模型已经跑通了商业落地,但多模态(同时处理文本+图像+语音+视频)还处在"基础能力预训练+模态对齐"阶段。为什么难?
- 不同模态语义空间不统一:图像是二维像素,文本是线性token,对齐极难
- 高质量对齐数据稀缺:文本数据丰富,图文/音图/视频+文字的标注数据非常少
- 训练方式缺乏统一标准:评估方法也没有共识
我的判断:文本大模型的商业范式已经跑通了,但多模态大模型还需要等一等。 如果你的产品需要多模态能力,现阶段更务实的做法是"文本大模型+专业模态模型"组合,而不是赌一个多模态大模型解决所有问题。
九、开源 vs 闭源:产品选型的核心决策
| 开源模型 | 闭源模型 | |
|---|---|---|
| 参数/结构 | 公开 | 不公开 |
| 部署方式 | 本地/私有云都可以 | 只能通过API |
| 成本 | 一次部署后无调用费 | 按token收费 |
| 定制性 | 可微调、剪枝、合并 | 仅限API功能 |
| 数据安全 | 可私有化部署,数据不出网 | 输入上传云端 |
| 举例 | LLaMA、Qwen、Baichuan、Mistral | GPT-4、Claude、Gemini |
我的观点:
- 对数据安全要求高的场景(金融、医疗、政务)→ 开源+私有化部署,数据不出网
- 追求效果上限的场景(通用问答、复杂推理)→ 闭源API,当前GPT-4/Claude效果仍领先
- 成本敏感的场景 → 开源模型一次投入长期使用,闭源按调用量持续花钱
不是非此即彼,很多企业实际的做法是"混合部署":核心业务用开源私有化,通用能力调闭源API。
写在最后
大模型的技术体系看起来很庞杂,但剥开术语外衣,核心逻辑其实就几件事:
- 训练逻辑:读书(预训练)→ 做题(微调)→ 改作文(RLHF)
- 架构基础:Transformer让模型能"看全文"、能并行处理
- 产品参数:上下文长度管记忆、参数量管能力、Temperature管随机性
- 核心局限:幻觉、没有个体记忆、多模态还没跑通
做AI产品经理,理解到这一层就够了。 更深的技术细节留给算法同学,但如果你连这些都不知道,产品设计时就会做出错误的决策——比如在需要确定性的场景用了高Temperature,在需要私有化部署的场景选了闭源API,在上下文长度不够时硬塞长文档。
技术不是你的饭碗,但技术认知是你的底线。
更多推荐


所有评论(0)