Transformer、大模型与生成式AI
本文系统梳理了Transformer架构和大语言模型的发展历程。2017年提出的Transformer通过自注意力机制解决了序列建模的并行化难题,奠定了现代AI的基础架构。随后GPT、BERT、T5分别代表了生成式预训练、双向编码和统一文本转换三大技术路线。2020年后,模型规模扩大催生了"基础模型"概念,ChatGPT等产品使生成式AI进入大众视野。当前AI正向多模态、长上下文、工具调用等方向发
这篇文章解决什么问题
前四篇文章已经走过了早期 AI、符号主义、专家系统、机器学习和深度学习。到这里,我们终于进入今天最熟悉的 AI 形态:大语言模型、ChatGPT、多模态模型、AI 编程助手、Agent 和生成式 AI。
这一波 AI 浪潮并不是突然出现的。它建立在深度学习、表示学习、GPU/TPU 计算、大规模数据、预训练方法和工程系统之上。2017 年 Transformer 架构出现后,语言模型开始摆脱循环网络的限制;2018-2020 年,GPT、BERT、T5 等模型让“预训练 + 适配任务”成为 NLP 主线;2022 年 ChatGPT 则让普通用户第一次大规模感受到“一个通用对话界面可以完成很多任务”。
这篇文章会解释:Transformer 为什么重要?大语言模型为什么会变成“基础模型”?生成式 AI 为什么不仅是聊天机器人?以及截至 2026 年 5 月,现代 AI 正在向多模态、推理、工具使用、长上下文和 Agent 化方向演进。
核心观点
- Transformer 的关键贡献是用自注意力机制建模序列关系,并支持更高效的并行训练。
- 大语言模型的核心训练目标很简单:根据上下文预测文本;但规模、数据和训练方式让它获得了广泛能力。
- 预训练让模型先从海量数据中学习通用表示,微调、指令微调和 RLHF 则让模型更适合具体任务和人类偏好。
- GPT、BERT、T5 代表了 Transformer 在不同方向上的早期路线:生成、理解、统一文本到文本。
- ChatGPT 的重要性不只是模型本身,而是把大模型包装成低门槛、可交互、可持续迭代的产品。
- 生成式 AI 不只生成文本,也包括图像、音频、视频、代码、结构化数据和工具调用。
- 2024-2026 年的趋势是:模型从“会说”走向“会看、会听、会推理、会调用工具、会执行更长任务”。
历史背景
在 Transformer 出现之前,NLP 的主流深度学习方法主要依赖循环神经网络、LSTM、GRU,以及后来的 Seq2Seq 和注意力机制。它们能够处理序列数据,但有一个长期困难:文本是按顺序展开的,模型处理长文本时容易忘记远处信息,训练也难以充分并行。
注意力机制先在神经机器翻译中发挥作用。它让模型在生成目标语言的每个词时,不必只依赖一个固定长度的中间向量,而是可以动态关注源句子的不同位置。这个思想非常重要:语言理解不只是线性读取,还需要在上下文中建立关系。
2017 年,Vaswani 等人发表 Attention Is All You Need,提出 Transformer。论文标题非常直接:注意力就够了。Transformer 用自注意力机制替代循环结构,让序列中的每个位置都能直接和其他位置建立联系,并且训练时可以更好地并行计算。
Transformer 最初主要面向机器翻译,但它很快被证明适合更广泛的语言任务。2018 年,OpenAI 的 GPT 展示了“生成式预训练 + 下游任务微调”的路线;同年,Google 的 BERT 展示了“双向编码器预训练 + 任务微调”的路线。2019 年 GPT-2 强化了“无监督语言模型可以表现出多任务能力”的信号;2020 年 GPT-3 则把规模推到 1750 亿参数,并展示了 few-shot prompting 的潜力。
与此同时,另一个词开始变得重要:基础模型,也叫 foundation model。2021 年 Stanford 的报告用这个词描述一类在广泛数据上大规模训练、可以适配许多下游任务的模型。这个词并不只指语言模型,也包括视觉、多模态、机器人等方向。但在 2021-2026 年,大语言模型是最具代表性的基础模型。
随后,生成式 AI 进入大众视野。DALL·E、CLIP、扩散模型和 Stable Diffusion 推动了文本生成图像;ChatGPT 让对话式生成模型成为消费者产品;GPT-4、Claude、Gemini、Llama、Mistral 等模型推动闭源和开放权重生态共同发展。到 2024-2026 年,模型竞争已经不只是“参数更大”,还包括多模态、长上下文、推理能力、工具使用、成本效率、安全对齐和真实工作流落地。
关键事件时间线
技术解释
1. Transformer:为什么注意力这么重要
Transformer 的核心是自注意力。简单说,自注意力让序列中的每个 token 都能根据任务需要,关注同一序列中的其他 token。
例如句子“我把苹果放进包里,因为它很重”中,“它”指代什么,需要结合前文判断。传统顺序模型需要一步步传递信息;自注意力则允许“它”直接和“苹果”“包”等位置建立关联,并学习哪些关系更重要。
可以把自注意力粗略理解为三个问题:
- Query:当前位置想找什么信息?
- Key:其他位置提供什么索引?
- Value:其他位置真正携带什么内容?
模型通过 Query 和 Key 计算相关性,再用相关性加权 Value。这里有一个常被忽视的细节:自注意力是"软"的——相关性会经过 softmax 归一化,所以每个 token 不是只挑一个邻居,而是按权重综合所有位置的信息。这点让注意力既能表达"某个词强烈指向另一个词",也能表达"模糊地综合多个上下文",比离散选择灵活得多。
位置编码:让顺序信息回到模型里
自注意力本身是"对称"的——把句子的词语顺序打乱,输出会完全一样。这显然不行:人类语言里"狗咬人"和"人咬狗"意思相反。Transformer 用**位置编码(Positional Encoding)**解决这个问题,把"位置"作为额外信息加到每个 token 的 embedding 上。
常见做法:
- 正弦位置编码(Sinusoidal):原始 Transformer 论文用不同频率的 sin/cos 函数生成位置向量,加到 embedding 上。优点是可外推到训练时未见过的长度。
- 可学习位置嵌入(Learned):BERT、GPT-2 等用一个可训练的位置矩阵,每个位置一个向量。简单但难外推到更长序列。
- 旋转位置编码(RoPE):把位置编码"乘"进 Query/Key 的旋转里,让相对位置更自然地参与注意力计算。Llama、Qwen、DeepSeek 等现代开源模型几乎都用 RoPE。
- ALiBi:直接在注意力分数上加一个随距离衰减的偏置,无需显式位置向量。
为什么要了解这些?因为大模型的"上下文长度"扩展(4K → 128K → 1M)很大程度取决于位置编码方案。RoPE 配合 NTK 插值、YaRN 等技巧,能让模型在不重新预训练的情况下显著拉长上下文窗口。
Transformer 的另一个优势是并行训练。RNN 需要按时间顺序处理序列,而 Transformer 在训练时可以同时处理序列中的多个位置。这非常适合 GPU/TPU,也让大规模训练更可行。
这就是为什么 Transformer 会成为大模型时代的底座:它既能表达复杂上下文关系,又能利用现代硬件进行大规模训练。
2. 语言模型到底在学什么
大语言模型的训练目标看起来很简单。以 GPT 这类自回归语言模型为例,它的任务是根据前面的文本预测下一个 token。
输入:人工智能的发展经历了符号主义、机器学习和
目标:预测下一个 token,可能是“深度”“统计”“神经”等
在海量文本上反复做这个任务,模型会被迫学习许多东西:词语搭配、语法结构、事实知识、文体风格、推理模式、代码语法、对话习惯和世界中的常见关系。
当然,说“模型学会了预测下一个 token”不等于说它只会机械补词。当模型足够大、数据足够多、训练足够充分时,预测任务会间接要求它建立丰富的内部表示。为了预测一句科学论文的下文,它需要掌握术语和论证结构;为了预测代码,它需要掌握语法和函数调用;为了预测数学解题过程,它需要学习某些推理模式。
但也要谨慎:这种学习来自数据统计和训练目标,并不保证模型真正理解世界,也不保证它生成的内容一定真实。语言模型非常擅长生成“像合理答案的文本”,这既是它的能力来源,也是幻觉问题的根源。
3. GPT、BERT、T5:三条重要路线
Transformer 很快分化出几种典型路线。
GPT 是 decoder-only 路线,适合从左到右生成文本。它的核心是自回归预测:给定前文,生成后文。GPT 系列后来成为聊天模型、代码模型和许多生成式应用的基础。
BERT 是 encoder-only 路线,适合理解任务。它通过两个目标做预训练:
- Masked Language Modeling(MLM):随机遮住句子里大约 15% 的词,让模型用左右上下文恢复。这强制模型学习双向表示。
- Next Sentence Prediction(NSP):给模型两段文本,预测后一段是否真的紧接前一段。原意是让模型学到句间关系,但后续研究(如 RoBERTa)发现 NSP 帮助有限,许多 BERT 变体已经移除了这个目标。
BERT 在分类、问答、信息抽取等任务上推动了 NLP 的一次大幅进步。
T5 是 encoder-decoder 路线,并把各种 NLP 任务统一成 text-to-text:输入是文本,输出也是文本。翻译、摘要、问答、分类都可以写成文本到文本的形式。这种统一接口的思想后来对大模型产品很有启发:尽可能把任务都变成同一种交互格式。
| 路线 | 代表模型 | 主要训练方式 | 擅长方向 |
|---|---|---|---|
| Decoder-only | GPT 系列、Llama、Mistral | 根据前文预测后文 | 文本生成、对话、代码、工具调用 |
| Encoder-only | BERT、RoBERTa | 根据双向上下文恢复被遮住内容 | 文本理解、分类、检索、抽取 |
| Encoder-decoder | T5、BART | 输入文本到输出文本 | 翻译、摘要、问答、统一文本任务 |
今天最热门的聊天式 LLM 大多采用 decoder-only 或类似生成式架构,但 BERT 和 T5 的影响并没有消失。搜索、检索、排序、分类和 embedding 模型中,encoder 思路仍然非常重要。
4. 预训练、微调、指令微调和 RLHF
大模型不是直接被训练成聊天助手的。它通常经历多个阶段。
第一阶段是预训练。模型在海量文本、代码或多模态数据上学习通用表示。这个阶段的目标通常很简单,例如预测下一个 token 或恢复被遮住的内容。
第二阶段是微调。模型用更小、更高质量、更接近任务的数据进行训练,让它适应特定任务。例如问答、摘要、代码补全、医学文本分析等。
第三阶段是指令微调。研究者把许多任务改写成自然语言指令,让模型学习“用户用自然语言提出要求时应该如何完成”。FLAN、InstructGPT 等工作都推动了这个方向。
第四阶段是基于人类反馈的强化学习,也就是 RLHF。以 InstructGPT 为代表的路线会收集人类对模型输出的偏好,训练奖励模型,再用强化学习优化模型,使输出更符合人类偏好,例如更有帮助、更诚实、更安全。
近年还出现了一类更轻量的"偏好优化"方法,代表是 DPO(Direct Preference Optimization)。DPO 不再训练一个独立的奖励模型,也不走 PPO 强化学习的复杂流程,而是把偏好数据直接转成一个分类损失,直接更新策略模型。它的优点是训练稳定、超参数少、复现简单,因此在开源社区里被广泛采用。后续的 IPO、KTO、ORPO、SimPO 等方法都属于这一族"直接偏好优化"。需要理解的是,RLHF/DPO 不是互斥关系——前沿模型常会先 RLHF 再用 DPO 微调,或反过来。它们共同解决的问题是"如何把人类偏好高效地注入模型"。
ChatGPT 的成功很大程度上来自这条后训练链路。一个会续写网页文本的模型,不一定天然适合作为助手;它需要学会遵循指令、拒绝危险请求、承认不确定、保持对话上下文,并用用户能理解的方式回答。
5. 规模效应:为什么大模型会越做越大
GPT-3 之后,“scale” 成为大模型时代的关键词。Kaplan 等人在 2020 年系统研究了语言模型的 scaling laws,发现模型性能与参数量、数据量、计算量之间存在可预测的经验关系。简单说,在相当一段范围内,更多计算、更大模型、更多数据会带来更低的语言建模损失。
这并不意味着“参数越多越好”是无条件真理。2022 年 Chinchilla 工作强调,在固定计算预算下,模型参数和训练 token 数量要更合理地配比。很多早期大模型可能参数很大,但训练数据相对不足;更小但训练更充分的模型也可以很强。
规模效应带来了两个结果。
第一,大模型开始表现出 few-shot、zero-shot、in-context learning 等能力。用户只需要在提示词中给几个例子,模型就能临时模仿任务格式,而不一定需要重新训练参数。
in-context learning 到底是什么
“in-context learning”(ICL,上下文学习)这个名字常被误读。它并不是模型在推理时真的更新参数——参数是冻结的——而是指模型仅靠 prompt 中的几个示例就能临时改变行为。GPT-3 论文里一个经典的演示:
英译法:
sea otter => loutre de mer
cheese => fromage
plush giraffe => girafe en peluche
peppermint =>
模型并没有在训练中专门学过这种格式,但能从前三对样例推断出"我应该把英文翻译成法语"。Brown 等人 2020 年的论文把这种能力称作 in-context learning,把不给示例的称作 zero-shot,给一个的称作 one-shot,给几个的称作 few-shot。
ICL 为什么会出现?目前学界还没有定论,主流解释包括:
- 任务诱导假说:海量预训练数据里隐含了大量"先列举几个例子再做新例子"的模式,模型在预训练时已经学到了这种通用模板。
- 隐式梯度下降假说:一些研究(如 Anthropic、Google Brain 2023 年的工作)观察到 Transformer 中的注意力机制在 prompt 上的行为,可以等价于一个在内部进行的"小型梯度下降"。
- 元学习视角:预训练目标本身就是一个元学习——模型在见过无数文档后,自然学会了"看几行就快速适配"。
ICL 的实际意义:它让"用模型"和"训练模型"在工程上彻底分离——业务开发者只要会写 prompt、组织好上下文,就能让同一个模型完成新任务,不需要训练流水线。这是现代 prompt engineering、few-shot prompting、上下文工程能存在的底层基础。
第二,模型训练成为系统工程。数据清洗、分布式训练、并行策略、故障恢复、评估、安全测试、推理加速、成本控制,都变得和模型架构一样重要。
大模型时代的竞争,不再是单纯发明一个算法,而是组织数据、算力、模型、产品和安全流程的综合能力。
6. ChatGPT:为什么是产品拐点
ChatGPT 于 2022 年 11 月 30 日发布。它不是第一个大语言模型,也不是第一个聊天机器人,但它是一个重要产品拐点。
它把大模型能力包装成极低门槛的对话界面。用户不需要懂机器学习,不需要调用 API,不需要准备训练数据,只要输入自然语言,就能让模型写作、解释、翻译、改代码、总结、列计划、扮演学习伙伴。
ChatGPT 的意义可以从三层理解:
| 层次 | 变化 |
|---|---|
| 技术层 | 预训练模型、指令微调、RLHF 和对话上下文结合 |
| 产品层 | 自然语言成为通用交互界面,用户门槛大幅降低 |
| 社会层 | 生成式 AI 从研究/工程圈进入教育、办公、编程、创作和政策讨论 |
这也解释了为什么 ChatGPT 引发的不是单一应用热潮,而是生态热潮。人们很快意识到,同一个模型可以嵌入搜索、文档、IDE、客服、设计、数据分析、教育和办公系统。AI 不再只是一个功能,而可能成为新的软件入口。
7. 生成式 AI:不只是文本
生成式 AI 指的是能够生成新内容的 AI,包括文本、图像、音频、视频、代码和结构化数据。大语言模型是其中最重要的一支,但不是全部。
图像生成领域中,扩散模型非常关键。DDPM 让扩散模型重新受到关注;Latent Diffusion Models 让高分辨率图像生成更高效,并成为 Stable Diffusion 等系统的重要基础。DALL·E、Midjourney、Stable Diffusion 等工具让文本到图像生成进入大众视野。
文本和图像之间的连接也很重要。CLIP 通过图文对比学习,让模型把图像和自然语言放进同一个语义空间。后来的多模态模型可以理解图片、回答关于图像的问题、生成图像描述,甚至同时处理文本、图像、音频和视频。
可以把生成式 AI 的范围粗略分成:
| 类型 | 输入 | 输出 | 典型能力 |
|---|---|---|---|
| 文本生成 | 提示词、文档、对话 | 文章、摘要、代码、问答 | ChatGPT、Claude、Gemini |
| 图像生成 | 文本、草图、参考图 | 图片、插画、设计稿 | DALL·E、Stable Diffusion |
| 音频生成 | 文本、音频片段 | 语音、音乐、音效 | 语音合成、音乐生成 |
| 视频生成 | 文本、图像、视频片段 | 视频片段 | 文生视频、视频编辑 |
| 代码生成 | 自然语言、代码上下文 | 函数、补全、测试、重构 | Copilot、Codex 类工具 |
生成式 AI 的共性是:用户用相对高层的意图描述,模型生成低层内容。这改变了很多创作和生产流程,也带来了版权、真实性、原创性和责任归属问题。
8. 多模态、长上下文和工具使用
2023 年之后,大模型逐渐从纯文本扩展到更复杂的输入输出。
多模态模型可以处理文本、图像、音频、视频等多种信息。GPT-4V、Gemini、Claude 3、GPT-4o 等模型都体现了这个方向。多模态不是简单地给模型加一个图片上传按钮,而是让模型在不同模态之间建立共同表示:看图回答问题、听语音实时对话、理解图表、分析截图、结合文字和视觉信息执行任务。
长上下文是另一个趋势。早期 GPT-3 的上下文窗口只有几千 token,后来模型逐渐支持几十万甚至百万级 token。长上下文让模型可以读取整本文档、代码仓库、会议记录或大量资料,但也带来检索、注意力成本、信息定位和上下文污染问题。上下文变长不等于模型自动会用好上下文。
工具使用则让模型从“只生成文本”走向“调用外部系统”。模型可以调用搜索、数据库、代码解释器、日历、文件系统、浏览器、企业 API 等工具。Toolformer、ReAct、Function Calling、MCP 等概念都在回答同一个问题:如何让语言模型可靠地连接外部世界?
这也是为什么后续文章会专门讨论 RAG、Function Calling、Agent、MCP、Context Engineering 和 AI Workflow。它们不是大模型之外的孤立热词,而是大模型落地时自然出现的工程问题。
9. 推理模型与 Agent 化趋势
2024 年之后,推理模型成为一个新的热点。OpenAI o1 是重要节点之一,它把更多计算用于回答前的内部推理过程,尤其强调数学、代码、科学和复杂问题求解。Google Gemini 2.5、OpenAI 后续推理模型以及其他前沿模型,也在产品叙事中更强调推理、编码和复杂任务执行。
这里需要区分两件事。
第一,普通大语言模型也能推理,但它们经常在多步问题上出错。Chain-of-Thought prompting、自一致性、反思、搜索和验证都试图提高复杂推理的可靠性。
第二,推理模型不只是“输出更多步骤”。很多现代系统会在回答前使用更多测试时计算、内部草稿、搜索、验证或工具调用。用户看到的可能是一段简洁答案,但背后计算过程更长。
Agent 化则是另一个方向。模型不只是回答一次问题,而是围绕目标进行多步行动:理解任务、拆解计划、调用工具、检查结果、修正错误、继续执行。AI 编程助手和研究助手是最典型的场景。到 2025-2026 年,许多前沿模型和产品都开始强调 agentic coding、deep research、computer use、workflow automation 等能力。
但 Agent 化并不等于模型自动可靠。越长的任务链,越需要权限管理、状态记录、错误恢复、评估、人工确认和可观测性。这些正是现代 AI 工程的重点。
为什么它重要
大模型与生成式 AI 的重要性,首先在于它改变了人机交互界面。过去,人要学习软件的菜单、按钮、命令和 API;现在,自然语言本身开始成为操作界面。用户可以直接表达目标,模型再生成文本、代码、图像或调用工具。
第二,它改变了 AI 应用的开发方式。过去一个任务往往需要一个专门模型;现在一个基础模型可以通过提示词、微调、RAG、工具调用和工作流适配许多任务。软件开发从“写死功能”部分转向“组织模型能力”。
第三,它改变了知识工作的生产方式。写作、阅读、总结、编程、翻译、数据分析、资料检索、会议纪要、设计草图、代码审查等工作,都可以被生成式 AI 加速。它不是简单替代人,而是改变人和工具之间的分工。
第四,它推动 AI 从单模型竞争进入系统竞争。模型本身重要,但真正落地还需要上下文管理、外部知识、工具、权限、评估、安全、监控和产品体验。一个好用的 AI 系统,往往不只是一个模型,而是一整套工程架构。
第五,它让 AI 的社会影响变得更直接。教育、版权、就业、隐私、虚假信息、模型偏见、算力集中、开源与闭源、安全治理,都因为生成式 AI 的普及而变得更紧迫。
局限与争议
大模型很强,但它们的局限同样明显。
首先是幻觉。模型会生成看似合理但并不真实的内容。幻觉不是简单 bug,而是语言建模目标和现实真实性之间的差异。RAG、引用、工具调用、验证器和人工审核都能缓解,但不能完全消除。
其次是上下文依赖。模型回答质量高度依赖提示词、上下文、系统指令和可用工具。上下文不完整或有噪声时,模型可能给出错误结论。长上下文也可能让错误信息污染回答。
第三是对齐和安全。模型需要避免有害输出、隐私泄露、歧视性内容、网络攻击辅助、生物安全风险等问题。RLHF、Constitutional AI、安全分类器、红队测试和系统卡都是应对方式,但安全和能力之间仍存在复杂权衡。
第四是版权和数据来源。生成式模型训练依赖大量文本、图片、代码和其他数据。数据授权、版权归属、生成内容是否侵权、开源代码许可证等问题仍在法律和行业实践中演化。
第五是成本和集中化。训练前沿模型需要巨大算力、数据和工程团队,这可能加剧资源集中。与此同时,Llama、Mistral、DeepSeek 等开放权重或开放生态模型又推动了另一股力量:让更多开发者和研究者能在本地或私有环境中使用强模型。
第六是评估困难。传统 benchmark 很容易被刷高,也难以覆盖真实工作流。一个模型在考试题上表现好,不代表能稳定完成企业任务;一个模型会写漂亮答案,不代表它能长期可靠地执行。
和今天 AI 的关系
今天你听到的大多数 AI 热词,都可以放回大模型发展史中理解。
| 热词 | 它解决的问题 | 和大模型的关系 |
|---|---|---|
| RAG | 模型知识过时或缺少企业私有知识 | 给模型补充可检索外部资料 |
| Function Calling / Tool Use | 模型不能只停留在文本生成 | 让模型调用 API、代码、数据库和业务系统 |
| Agent | 单次问答无法完成复杂任务 | 让模型围绕目标规划、执行和反馈 |
| MCP | 工具和数据源接入方式碎片化 | 为模型连接外部上下文和工具提供协议化接口 |
| Context Engineering | 提示词不够支撑复杂应用 | 系统性组织指令、记忆、检索、工具结果和状态 |
| AI Workflow | 需要可靠、可监控、可回滚的流程 | 把模型嵌入多步骤业务链路 |
| AI Skill | Agent 需要可复用能力包 | 把说明、脚本、资源和流程打包给模型调用 |
| Vibe Coding | AI 编程工具降低实现门槛 | 用自然语言和快速反馈驱动软件开发 |
前面几篇回答“AI 怎样走到大模型”,后面几篇会回答“大模型怎样变成可用系统”。
截至 2026 年 5 月,AI 的主线已经从“模型能否生成流畅文本”转向更复杂的问题:它能否可靠使用上下文?能否调用工具?能否处理长任务?能否解释和验证结果?能否在企业环境中安全运行?能否以可控成本服务大量用户?这些问题决定了大模型从演示走向基础设施的速度。
小结
- Transformer 用自注意力和并行训练能力,成为大模型时代的关键架构。
- GPT、BERT、T5 展示了 Transformer 在生成、理解和统一文本任务上的不同路线。
- 大语言模型通常先通过预训练学习通用表示,再通过微调、指令微调、RLHF 或偏好优化适应人类任务。
- GPT-3 和 scaling laws 让“规模效应”成为大模型发展的核心经验。
- Chinchilla 提醒研究者,参数量和训练数据需要按计算预算合理配比。
- ChatGPT 的突破不仅是模型能力,也是低门槛对话产品和持续迭代系统的胜利。
- 生成式 AI 不只是文本生成,也包括图像、音频、视频、代码和工具驱动的内容生产。
- 多模态、长上下文、工具使用、推理模型和 Agent 化,是 2024-2026 年的关键趋势。
- 大模型仍然面临幻觉、偏见、安全、版权、成本、评估和可靠性问题。
- 后续 RAG、Agent、MCP、Context Engineering 等热词,都是围绕“大模型如何成为可靠系统”展开的。
参考资料
- Ashish Vaswani et al., Attention Is All You Need, 2017: https://arxiv.org/abs/1706.03762
- Alec Radford et al., Improving Language Understanding by Generative Pre-Training, 2018: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
- Jacob Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018: https://arxiv.org/abs/1810.04805
- Alec Radford et al., Language Models are Unsupervised Multitask Learners, 2019: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
- Colin Raffel et al., Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, 2019: https://arxiv.org/abs/1910.10683
- Jared Kaplan et al., Scaling Laws for Neural Language Models, 2020: https://arxiv.org/abs/2001.08361
- Tom B. Brown et al., Language Models are Few-Shot Learners, 2020: https://arxiv.org/abs/2005.14165
- Jonathan Ho, Ajay Jain, Pieter Abbeel, Denoising Diffusion Probabilistic Models, 2020: https://arxiv.org/abs/2006.11239
- Alec Radford et al., Learning Transferable Visual Models From Natural Language Supervision, 2021: https://arxiv.org/abs/2103.00020
- OpenAI, DALL·E: Creating images from text, 2021: https://openai.com/research/dall-e
- Rishi Bommasani et al., On the Opportunities and Risks of Foundation Models, 2021: https://arxiv.org/abs/2108.07258
- Jason Wei et al., Finetuned Language Models Are Zero-Shot Learners, 2021: https://arxiv.org/abs/2109.01652
- Long Ouyang et al., Training language models to follow instructions with human feedback, 2022: https://arxiv.org/abs/2203.02155
- Jordan Hoffmann et al., Training Compute-Optimal Large Language Models, 2022: https://arxiv.org/abs/2203.15556
- Jason Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022: https://arxiv.org/abs/2201.11903
- Shunyu Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, 2022: https://arxiv.org/abs/2210.03629
- OpenAI, Introducing ChatGPT, 2022: https://openai.com/blog/chatgpt/
- OpenAI, GPT-4 Technical Report, 2023: https://arxiv.org/abs/2303.08774
- Hugo Touvron et al., LLaMA: Open and Efficient Foundation Language Models, 2023: https://arxiv.org/abs/2302.13971
- Hugo Touvron et al., Llama 2: Open Foundation and Fine-Tuned Chat Models, 2023: https://arxiv.org/abs/2307.09288
- Timo Schick et al., Toolformer: Language Models Can Teach Themselves to Use Tools, 2023: https://arxiv.org/abs/2302.04761
- OpenAI, GPT-4V(ision) System Card, 2023: https://openai.com/index/gpt-4v-system-card/
- Google, Introducing Gemini, 2023: https://blog.google/innovation-and-ai/technology/ai/gemini-collection/
- Google, Introducing Gemini 1.5, 2024: https://blog.google/innovation-and-ai/products/google-gemini-next-generation-model-february-2024/
- Anthropic, Introducing the next generation of Claude, 2024: https://www.anthropic.com/news/claude-3-family
- OpenAI, Hello GPT-4o, 2024: https://openai.com/index/hello-gpt-4o/
- OpenAI, Learning to reason with LLMs, 2024: https://openai.com/index/learning-to-reason-with-llms/
- OpenAI, Introducing GPT-4.1 in the API, 2025: https://openai.com/index/gpt-4-1/
更多推荐


所有评论(0)