Transformer、大模型与生成式AI

本文系统梳理了Transformer架构和大语言模型的发展历程。2017年提出的Transformer通过自注意力机制解决了序列建模的并行化难题，奠定了现代AI的基础架构。随后GPT、BERT、T5分别代表了生成式预训练、双向编码和统一文本转换三大技术路线。2020年后，模型规模扩大催生了"基础模型"概念，ChatGPT等产品使生成式AI进入大众视野。当前AI正向多模态、长上下文、工具调用等方向发

星球奋斗者

596人浏览 · 2026-05-25 10:42:28

星球奋斗者 · 2026-05-25 10:42:28 发布

这篇文章解决什么问题

前四篇文章已经走过了早期 AI、符号主义、专家系统、机器学习和深度学习。到这里，我们终于进入今天最熟悉的 AI 形态：大语言模型、ChatGPT、多模态模型、AI 编程助手、Agent 和生成式 AI。

这一波 AI 浪潮并不是突然出现的。它建立在深度学习、表示学习、GPU/TPU 计算、大规模数据、预训练方法和工程系统之上。2017 年 Transformer 架构出现后，语言模型开始摆脱循环网络的限制；2018-2020 年，GPT、BERT、T5 等模型让“预训练 + 适配任务”成为 NLP 主线；2022 年 ChatGPT 则让普通用户第一次大规模感受到“一个通用对话界面可以完成很多任务”。

这篇文章会解释：Transformer 为什么重要？大语言模型为什么会变成“基础模型”？生成式 AI 为什么不仅是聊天机器人？以及截至 2026 年 5 月，现代 AI 正在向多模态、推理、工具使用、长上下文和 Agent 化方向演进。

核心观点

Transformer 的关键贡献是用自注意力机制建模序列关系，并支持更高效的并行训练。
大语言模型的核心训练目标很简单：根据上下文预测文本；但规模、数据和训练方式让它获得了广泛能力。
预训练让模型先从海量数据中学习通用表示，微调、指令微调和 RLHF 则让模型更适合具体任务和人类偏好。
GPT、BERT、T5 代表了 Transformer 在不同方向上的早期路线：生成、理解、统一文本到文本。
ChatGPT 的重要性不只是模型本身，而是把大模型包装成低门槛、可交互、可持续迭代的产品。
生成式 AI 不只生成文本，也包括图像、音频、视频、代码、结构化数据和工具调用。
2024-2026 年的趋势是：模型从“会说”走向“会看、会听、会推理、会调用工具、会执行更长任务”。

历史背景

在 Transformer 出现之前，NLP 的主流深度学习方法主要依赖循环神经网络、LSTM、GRU，以及后来的 Seq2Seq 和注意力机制。它们能够处理序列数据，但有一个长期困难：文本是按顺序展开的，模型处理长文本时容易忘记远处信息，训练也难以充分并行。

注意力机制先在神经机器翻译中发挥作用。它让模型在生成目标语言的每个词时，不必只依赖一个固定长度的中间向量，而是可以动态关注源句子的不同位置。这个思想非常重要：语言理解不只是线性读取，还需要在上下文中建立关系。

2017 年，Vaswani 等人发表 Attention Is All You Need，提出 Transformer。论文标题非常直接：注意力就够了。Transformer 用自注意力机制替代循环结构，让序列中的每个位置都能直接和其他位置建立联系，并且训练时可以更好地并行计算。

Transformer 最初主要面向机器翻译，但它很快被证明适合更广泛的语言任务。2018 年，OpenAI 的 GPT 展示了“生成式预训练 + 下游任务微调”的路线；同年，Google 的 BERT 展示了“双向编码器预训练 + 任务微调”的路线。2019 年 GPT-2 强化了“无监督语言模型可以表现出多任务能力”的信号；2020 年 GPT-3 则把规模推到 1750 亿参数，并展示了 few-shot prompting 的潜力。

与此同时，另一个词开始变得重要：基础模型，也叫 foundation model。2021 年 Stanford 的报告用这个词描述一类在广泛数据上大规模训练、可以适配许多下游任务的模型。这个词并不只指语言模型，也包括视觉、多模态、机器人等方向。但在 2021-2026 年，大语言模型是最具代表性的基础模型。

随后，生成式 AI 进入大众视野。DALL·E、CLIP、扩散模型和 Stable Diffusion 推动了文本生成图像；ChatGPT 让对话式生成模型成为消费者产品；GPT-4、Claude、Gemini、Llama、Mistral 等模型推动闭源和开放权重生态共同发展。到 2024-2026 年，模型竞争已经不只是“参数更大”，还包括多模态、长上下文、推理能力、工具使用、成本效率、安全对齐和真实工作流落地。

关键事件时间线

技术解释

1. Transformer：为什么注意力这么重要

Transformer 的核心是自注意力。简单说，自注意力让序列中的每个 token 都能根据任务需要，关注同一序列中的其他 token。

例如句子“我把苹果放进包里，因为它很重”中，“它”指代什么，需要结合前文判断。传统顺序模型需要一步步传递信息；自注意力则允许“它”直接和“苹果”“包”等位置建立关联，并学习哪些关系更重要。

可以把自注意力粗略理解为三个问题：

Query：当前位置想找什么信息？
Key：其他位置提供什么索引？
Value：其他位置真正携带什么内容？

模型通过 Query 和 Key 计算相关性，再用相关性加权 Value。这里有一个常被忽视的细节：自注意力是"软"的——相关性会经过 softmax 归一化，所以每个 token 不是只挑一个邻居，而是按权重综合所有位置的信息。这点让注意力既能表达"某个词强烈指向另一个词"，也能表达"模糊地综合多个上下文"，比离散选择灵活得多。
在这里插入图片描述

位置编码：让顺序信息回到模型里

自注意力本身是"对称"的——把句子的词语顺序打乱，输出会完全一样。这显然不行：人类语言里"狗咬人"和"人咬狗"意思相反。Transformer 用**位置编码（Positional Encoding）**解决这个问题，把"位置"作为额外信息加到每个 token 的 embedding 上。

常见做法：

正弦位置编码（Sinusoidal）：原始 Transformer 论文用不同频率的 sin/cos 函数生成位置向量，加到 embedding 上。优点是可外推到训练时未见过的长度。
可学习位置嵌入（Learned）：BERT、GPT-2 等用一个可训练的位置矩阵，每个位置一个向量。简单但难外推到更长序列。
旋转位置编码（RoPE）：把位置编码"乘"进 Query/Key 的旋转里，让相对位置更自然地参与注意力计算。Llama、Qwen、DeepSeek 等现代开源模型几乎都用 RoPE。
ALiBi：直接在注意力分数上加一个随距离衰减的偏置，无需显式位置向量。

为什么要了解这些？因为大模型的"上下文长度"扩展（4K → 128K → 1M）很大程度取决于位置编码方案。RoPE 配合 NTK 插值、YaRN 等技巧，能让模型在不重新预训练的情况下显著拉长上下文窗口。

Transformer 的另一个优势是并行训练。RNN 需要按时间顺序处理序列，而 Transformer 在训练时可以同时处理序列中的多个位置。这非常适合 GPU/TPU，也让大规模训练更可行。

这就是为什么 Transformer 会成为大模型时代的底座：它既能表达复杂上下文关系，又能利用现代硬件进行大规模训练。

2. 语言模型到底在学什么

大语言模型的训练目标看起来很简单。以 GPT 这类自回归语言模型为例，它的任务是根据前面的文本预测下一个 token。

输入：人工智能的发展经历了符号主义、机器学习和
目标：预测下一个 token，可能是“深度”“统计”“神经”等

在海量文本上反复做这个任务，模型会被迫学习许多东西：词语搭配、语法结构、事实知识、文体风格、推理模式、代码语法、对话习惯和世界中的常见关系。

当然，说“模型学会了预测下一个 token”不等于说它只会机械补词。当模型足够大、数据足够多、训练足够充分时，预测任务会间接要求它建立丰富的内部表示。为了预测一句科学论文的下文，它需要掌握术语和论证结构；为了预测代码，它需要掌握语法和函数调用；为了预测数学解题过程，它需要学习某些推理模式。

但也要谨慎：这种学习来自数据统计和训练目标，并不保证模型真正理解世界，也不保证它生成的内容一定真实。语言模型非常擅长生成“像合理答案的文本”，这既是它的能力来源，也是幻觉问题的根源。

3. GPT、BERT、T5：三条重要路线

Transformer 很快分化出几种典型路线。

GPT 是 decoder-only 路线，适合从左到右生成文本。它的核心是自回归预测：给定前文，生成后文。GPT 系列后来成为聊天模型、代码模型和许多生成式应用的基础。

BERT 是 encoder-only 路线，适合理解任务。它通过两个目标做预训练：

Masked Language Modeling（MLM）：随机遮住句子里大约 15% 的词，让模型用左右上下文恢复。这强制模型学习双向表示。
Next Sentence Prediction（NSP）：给模型两段文本，预测后一段是否真的紧接前一段。原意是让模型学到句间关系，但后续研究（如 RoBERTa）发现 NSP 帮助有限，许多 BERT 变体已经移除了这个目标。

BERT 在分类、问答、信息抽取等任务上推动了 NLP 的一次大幅进步。

T5 是 encoder-decoder 路线，并把各种 NLP 任务统一成 text-to-text：输入是文本，输出也是文本。翻译、摘要、问答、分类都可以写成文本到文本的形式。这种统一接口的思想后来对大模型产品很有启发：尽可能把任务都变成同一种交互格式。

路线	代表模型	主要训练方式	擅长方向
Decoder-only	GPT 系列、Llama、Mistral	根据前文预测后文	文本生成、对话、代码、工具调用
Encoder-only	BERT、RoBERTa	根据双向上下文恢复被遮住内容	文本理解、分类、检索、抽取
Encoder-decoder	T5、BART	输入文本到输出文本	翻译、摘要、问答、统一文本任务

今天最热门的聊天式 LLM 大多采用 decoder-only 或类似生成式架构，但 BERT 和 T5 的影响并没有消失。搜索、检索、排序、分类和 embedding 模型中，encoder 思路仍然非常重要。

4. 预训练、微调、指令微调和 RLHF

大模型不是直接被训练成聊天助手的。它通常经历多个阶段。

第一阶段是预训练。模型在海量文本、代码或多模态数据上学习通用表示。这个阶段的目标通常很简单，例如预测下一个 token 或恢复被遮住的内容。

第二阶段是微调。模型用更小、更高质量、更接近任务的数据进行训练，让它适应特定任务。例如问答、摘要、代码补全、医学文本分析等。

第三阶段是指令微调。研究者把许多任务改写成自然语言指令，让模型学习“用户用自然语言提出要求时应该如何完成”。FLAN、InstructGPT 等工作都推动了这个方向。

第四阶段是基于人类反馈的强化学习，也就是 RLHF。以 InstructGPT 为代表的路线会收集人类对模型输出的偏好，训练奖励模型，再用强化学习优化模型，使输出更符合人类偏好，例如更有帮助、更诚实、更安全。

近年还出现了一类更轻量的"偏好优化"方法，代表是 DPO（Direct Preference Optimization）。DPO 不再训练一个独立的奖励模型，也不走 PPO 强化学习的复杂流程，而是把偏好数据直接转成一个分类损失，直接更新策略模型。它的优点是训练稳定、超参数少、复现简单，因此在开源社区里被广泛采用。后续的 IPO、KTO、ORPO、SimPO 等方法都属于这一族"直接偏好优化"。需要理解的是，RLHF/DPO 不是互斥关系——前沿模型常会先 RLHF 再用 DPO 微调，或反过来。它们共同解决的问题是"如何把人类偏好高效地注入模型"。

ChatGPT 的成功很大程度上来自这条后训练链路。一个会续写网页文本的模型，不一定天然适合作为助手；它需要学会遵循指令、拒绝危险请求、承认不确定、保持对话上下文，并用用户能理解的方式回答。

5. 规模效应：为什么大模型会越做越大

GPT-3 之后，“scale” 成为大模型时代的关键词。Kaplan 等人在 2020 年系统研究了语言模型的 scaling laws，发现模型性能与参数量、数据量、计算量之间存在可预测的经验关系。简单说，在相当一段范围内，更多计算、更大模型、更多数据会带来更低的语言建模损失。

这并不意味着“参数越多越好”是无条件真理。2022 年 Chinchilla 工作强调，在固定计算预算下，模型参数和训练 token 数量要更合理地配比。很多早期大模型可能参数很大，但训练数据相对不足；更小但训练更充分的模型也可以很强。

规模效应带来了两个结果。

第一，大模型开始表现出 few-shot、zero-shot、in-context learning 等能力。用户只需要在提示词中给几个例子，模型就能临时模仿任务格式，而不一定需要重新训练参数。

in-context learning 到底是什么

“in-context learning”（ICL，上下文学习）这个名字常被误读。它并不是模型在推理时真的更新参数——参数是冻结的——而是指模型仅靠 prompt 中的几个示例就能临时改变行为。GPT-3 论文里一个经典的演示：

英译法：
sea otter => loutre de mer
cheese => fromage
plush giraffe => girafe en peluche
peppermint =>

模型并没有在训练中专门学过这种格式，但能从前三对样例推断出"我应该把英文翻译成法语"。Brown 等人 2020 年的论文把这种能力称作 in-context learning，把不给示例的称作 zero-shot，给一个的称作 one-shot，给几个的称作 few-shot。

ICL 为什么会出现？目前学界还没有定论，主流解释包括：

任务诱导假说：海量预训练数据里隐含了大量"先列举几个例子再做新例子"的模式，模型在预训练时已经学到了这种通用模板。
隐式梯度下降假说：一些研究（如 Anthropic、Google Brain 2023 年的工作）观察到 Transformer 中的注意力机制在 prompt 上的行为，可以等价于一个在内部进行的"小型梯度下降"。
元学习视角：预训练目标本身就是一个元学习——模型在见过无数文档后，自然学会了"看几行就快速适配"。

ICL 的实际意义：它让"用模型"和"训练模型"在工程上彻底分离——业务开发者只要会写 prompt、组织好上下文，就能让同一个模型完成新任务，不需要训练流水线。这是现代 prompt engineering、few-shot prompting、上下文工程能存在的底层基础。

第二，模型训练成为系统工程。数据清洗、分布式训练、并行策略、故障恢复、评估、安全测试、推理加速、成本控制，都变得和模型架构一样重要。

大模型时代的竞争，不再是单纯发明一个算法，而是组织数据、算力、模型、产品和安全流程的综合能力。

6. ChatGPT：为什么是产品拐点

ChatGPT 于 2022 年 11 月 30 日发布。它不是第一个大语言模型，也不是第一个聊天机器人，但它是一个重要产品拐点。

它把大模型能力包装成极低门槛的对话界面。用户不需要懂机器学习，不需要调用 API，不需要准备训练数据，只要输入自然语言，就能让模型写作、解释、翻译、改代码、总结、列计划、扮演学习伙伴。

ChatGPT 的意义可以从三层理解：

层次	变化
技术层	预训练模型、指令微调、RLHF 和对话上下文结合
产品层	自然语言成为通用交互界面，用户门槛大幅降低
社会层	生成式 AI 从研究/工程圈进入教育、办公、编程、创作和政策讨论

这也解释了为什么 ChatGPT 引发的不是单一应用热潮，而是生态热潮。人们很快意识到，同一个模型可以嵌入搜索、文档、IDE、客服、设计、数据分析、教育和办公系统。AI 不再只是一个功能，而可能成为新的软件入口。

7. 生成式 AI：不只是文本

生成式 AI 指的是能够生成新内容的 AI，包括文本、图像、音频、视频、代码和结构化数据。大语言模型是其中最重要的一支，但不是全部。

图像生成领域中，扩散模型非常关键。DDPM 让扩散模型重新受到关注；Latent Diffusion Models 让高分辨率图像生成更高效，并成为 Stable Diffusion 等系统的重要基础。DALL·E、Midjourney、Stable Diffusion 等工具让文本到图像生成进入大众视野。

文本和图像之间的连接也很重要。CLIP 通过图文对比学习，让模型把图像和自然语言放进同一个语义空间。后来的多模态模型可以理解图片、回答关于图像的问题、生成图像描述，甚至同时处理文本、图像、音频和视频。

可以把生成式 AI 的范围粗略分成：

类型	输入	输出	典型能力
文本生成	提示词、文档、对话	文章、摘要、代码、问答	ChatGPT、Claude、Gemini
图像生成	文本、草图、参考图	图片、插画、设计稿	DALL·E、Stable Diffusion
音频生成	文本、音频片段	语音、音乐、音效	语音合成、音乐生成
视频生成	文本、图像、视频片段	视频片段	文生视频、视频编辑
代码生成	自然语言、代码上下文	函数、补全、测试、重构	Copilot、Codex 类工具

生成式 AI 的共性是：用户用相对高层的意图描述，模型生成低层内容。这改变了很多创作和生产流程，也带来了版权、真实性、原创性和责任归属问题。

8. 多模态、长上下文和工具使用

2023 年之后，大模型逐渐从纯文本扩展到更复杂的输入输出。

多模态模型可以处理文本、图像、音频、视频等多种信息。GPT-4V、Gemini、Claude 3、GPT-4o 等模型都体现了这个方向。多模态不是简单地给模型加一个图片上传按钮，而是让模型在不同模态之间建立共同表示：看图回答问题、听语音实时对话、理解图表、分析截图、结合文字和视觉信息执行任务。

长上下文是另一个趋势。早期 GPT-3 的上下文窗口只有几千 token，后来模型逐渐支持几十万甚至百万级 token。长上下文让模型可以读取整本文档、代码仓库、会议记录或大量资料，但也带来检索、注意力成本、信息定位和上下文污染问题。上下文变长不等于模型自动会用好上下文。

工具使用则让模型从“只生成文本”走向“调用外部系统”。模型可以调用搜索、数据库、代码解释器、日历、文件系统、浏览器、企业 API 等工具。Toolformer、ReAct、Function Calling、MCP 等概念都在回答同一个问题：如何让语言模型可靠地连接外部世界？

这也是为什么后续文章会专门讨论 RAG、Function Calling、Agent、MCP、Context Engineering 和 AI Workflow。它们不是大模型之外的孤立热词，而是大模型落地时自然出现的工程问题。

9. 推理模型与 Agent 化趋势

2024 年之后，推理模型成为一个新的热点。OpenAI o1 是重要节点之一，它把更多计算用于回答前的内部推理过程，尤其强调数学、代码、科学和复杂问题求解。Google Gemini 2.5、OpenAI 后续推理模型以及其他前沿模型，也在产品叙事中更强调推理、编码和复杂任务执行。

这里需要区分两件事。

第一，普通大语言模型也能推理，但它们经常在多步问题上出错。Chain-of-Thought prompting、自一致性、反思、搜索和验证都试图提高复杂推理的可靠性。

第二，推理模型不只是“输出更多步骤”。很多现代系统会在回答前使用更多测试时计算、内部草稿、搜索、验证或工具调用。用户看到的可能是一段简洁答案，但背后计算过程更长。

Agent 化则是另一个方向。模型不只是回答一次问题，而是围绕目标进行多步行动：理解任务、拆解计划、调用工具、检查结果、修正错误、继续执行。AI 编程助手和研究助手是最典型的场景。到 2025-2026 年，许多前沿模型和产品都开始强调 agentic coding、deep research、computer use、workflow automation 等能力。

但 Agent 化并不等于模型自动可靠。越长的任务链，越需要权限管理、状态记录、错误恢复、评估、人工确认和可观测性。这些正是现代 AI 工程的重点。

为什么它重要

大模型与生成式 AI 的重要性，首先在于它改变了人机交互界面。过去，人要学习软件的菜单、按钮、命令和 API；现在，自然语言本身开始成为操作界面。用户可以直接表达目标，模型再生成文本、代码、图像或调用工具。

第二，它改变了 AI 应用的开发方式。过去一个任务往往需要一个专门模型；现在一个基础模型可以通过提示词、微调、RAG、工具调用和工作流适配许多任务。软件开发从“写死功能”部分转向“组织模型能力”。

第三，它改变了知识工作的生产方式。写作、阅读、总结、编程、翻译、数据分析、资料检索、会议纪要、设计草图、代码审查等工作，都可以被生成式 AI 加速。它不是简单替代人，而是改变人和工具之间的分工。

第四，它推动 AI 从单模型竞争进入系统竞争。模型本身重要，但真正落地还需要上下文管理、外部知识、工具、权限、评估、安全、监控和产品体验。一个好用的 AI 系统，往往不只是一个模型，而是一整套工程架构。

第五，它让 AI 的社会影响变得更直接。教育、版权、就业、隐私、虚假信息、模型偏见、算力集中、开源与闭源、安全治理，都因为生成式 AI 的普及而变得更紧迫。

局限与争议

大模型很强，但它们的局限同样明显。

首先是幻觉。模型会生成看似合理但并不真实的内容。幻觉不是简单 bug，而是语言建模目标和现实真实性之间的差异。RAG、引用、工具调用、验证器和人工审核都能缓解，但不能完全消除。

其次是上下文依赖。模型回答质量高度依赖提示词、上下文、系统指令和可用工具。上下文不完整或有噪声时，模型可能给出错误结论。长上下文也可能让错误信息污染回答。

第三是对齐和安全。模型需要避免有害输出、隐私泄露、歧视性内容、网络攻击辅助、生物安全风险等问题。RLHF、Constitutional AI、安全分类器、红队测试和系统卡都是应对方式，但安全和能力之间仍存在复杂权衡。

第四是版权和数据来源。生成式模型训练依赖大量文本、图片、代码和其他数据。数据授权、版权归属、生成内容是否侵权、开源代码许可证等问题仍在法律和行业实践中演化。

第五是成本和集中化。训练前沿模型需要巨大算力、数据和工程团队，这可能加剧资源集中。与此同时，Llama、Mistral、DeepSeek 等开放权重或开放生态模型又推动了另一股力量：让更多开发者和研究者能在本地或私有环境中使用强模型。

第六是评估困难。传统 benchmark 很容易被刷高，也难以覆盖真实工作流。一个模型在考试题上表现好，不代表能稳定完成企业任务；一个模型会写漂亮答案，不代表它能长期可靠地执行。

和今天 AI 的关系

今天你听到的大多数 AI 热词，都可以放回大模型发展史中理解。

热词	它解决的问题	和大模型的关系
RAG	模型知识过时或缺少企业私有知识	给模型补充可检索外部资料
Function Calling / Tool Use	模型不能只停留在文本生成	让模型调用 API、代码、数据库和业务系统
Agent	单次问答无法完成复杂任务	让模型围绕目标规划、执行和反馈
MCP	工具和数据源接入方式碎片化	为模型连接外部上下文和工具提供协议化接口
Context Engineering	提示词不够支撑复杂应用	系统性组织指令、记忆、检索、工具结果和状态
AI Workflow	需要可靠、可监控、可回滚的流程	把模型嵌入多步骤业务链路
AI Skill	Agent 需要可复用能力包	把说明、脚本、资源和流程打包给模型调用
Vibe Coding	AI 编程工具降低实现门槛	用自然语言和快速反馈驱动软件开发

前面几篇回答“AI 怎样走到大模型”，后面几篇会回答“大模型怎样变成可用系统”。

截至 2026 年 5 月，AI 的主线已经从“模型能否生成流畅文本”转向更复杂的问题：它能否可靠使用上下文？能否调用工具？能否处理长任务？能否解释和验证结果？能否在企业环境中安全运行？能否以可控成本服务大量用户？这些问题决定了大模型从演示走向基础设施的速度。

小结

Transformer 用自注意力和并行训练能力，成为大模型时代的关键架构。
GPT、BERT、T5 展示了 Transformer 在生成、理解和统一文本任务上的不同路线。
大语言模型通常先通过预训练学习通用表示，再通过微调、指令微调、RLHF 或偏好优化适应人类任务。
GPT-3 和 scaling laws 让“规模效应”成为大模型发展的核心经验。
Chinchilla 提醒研究者，参数量和训练数据需要按计算预算合理配比。
ChatGPT 的突破不仅是模型能力，也是低门槛对话产品和持续迭代系统的胜利。
生成式 AI 不只是文本生成，也包括图像、音频、视频、代码和工具驱动的内容生产。
多模态、长上下文、工具使用、推理模型和 Agent 化，是 2024-2026 年的关键趋势。
大模型仍然面临幻觉、偏见、安全、版权、成本、评估和可靠性问题。
后续 RAG、Agent、MCP、Context Engineering 等热词，都是围绕“大模型如何成为可靠系统”展开的。

参考资料

Ashish Vaswani et al., Attention Is All You Need, 2017: https://arxiv.org/abs/1706.03762
Alec Radford et al., Improving Language Understanding by Generative Pre-Training, 2018: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
Jacob Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2018: https://arxiv.org/abs/1810.04805
Alec Radford et al., Language Models are Unsupervised Multitask Learners, 2019: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
Colin Raffel et al., Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, 2019: https://arxiv.org/abs/1910.10683
Jared Kaplan et al., Scaling Laws for Neural Language Models, 2020: https://arxiv.org/abs/2001.08361
Tom B. Brown et al., Language Models are Few-Shot Learners, 2020: https://arxiv.org/abs/2005.14165
Jonathan Ho, Ajay Jain, Pieter Abbeel, Denoising Diffusion Probabilistic Models, 2020: https://arxiv.org/abs/2006.11239
Alec Radford et al., Learning Transferable Visual Models From Natural Language Supervision, 2021: https://arxiv.org/abs/2103.00020
OpenAI, DALL·E: Creating images from text, 2021: https://openai.com/research/dall-e
Rishi Bommasani et al., On the Opportunities and Risks of Foundation Models, 2021: https://arxiv.org/abs/2108.07258
Jason Wei et al., Finetuned Language Models Are Zero-Shot Learners, 2021: https://arxiv.org/abs/2109.01652
Long Ouyang et al., Training language models to follow instructions with human feedback, 2022: https://arxiv.org/abs/2203.02155
Jordan Hoffmann et al., Training Compute-Optimal Large Language Models, 2022: https://arxiv.org/abs/2203.15556
Jason Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 2022: https://arxiv.org/abs/2201.11903
Shunyu Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, 2022: https://arxiv.org/abs/2210.03629
OpenAI, Introducing ChatGPT, 2022: https://openai.com/blog/chatgpt/
OpenAI, GPT-4 Technical Report, 2023: https://arxiv.org/abs/2303.08774
Hugo Touvron et al., LLaMA: Open and Efficient Foundation Language Models, 2023: https://arxiv.org/abs/2302.13971
Hugo Touvron et al., Llama 2: Open Foundation and Fine-Tuned Chat Models, 2023: https://arxiv.org/abs/2307.09288
Timo Schick et al., Toolformer: Language Models Can Teach Themselves to Use Tools, 2023: https://arxiv.org/abs/2302.04761
OpenAI, GPT-4V(ision) System Card, 2023: https://openai.com/index/gpt-4v-system-card/
Google, Introducing Gemini, 2023: https://blog.google/innovation-and-ai/technology/ai/gemini-collection/
Google, Introducing Gemini 1.5, 2024: https://blog.google/innovation-and-ai/products/google-gemini-next-generation-model-february-2024/
Anthropic, Introducing the next generation of Claude, 2024: https://www.anthropic.com/news/claude-3-family
OpenAI, Hello GPT-4o, 2024: https://openai.com/index/hello-gpt-4o/
OpenAI, Learning to reason with LLMs, 2024: https://openai.com/index/learning-to-reason-with-llms/
OpenAI, Introducing GPT-4.1 in the API, 2025: https://openai.com/index/gpt-4-1/

下一篇：RAG：检索增强生成

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

后端接入 AI Agent：Tool Calling 网关、幂等与审计日志实战

AI Agent技术社区

AI导出鸭惊了！DeepSeek代码手机导出保姆级实操，不看亏一套海景房

AI Agent技术社区

OpenClaw vs Hermes Agent：企业级执行 vs 自我进化，一文读懂怎么选！

AI Agent 开源双子星深度对比：OpenClaw（GitHub 26.4w⭐）主打工程化落地，四层记忆+20+渠道+13,700+技能，适合企业自动化；Hermes Agent（53天10w⭐）主打闭环学习，四级记忆+自动技能进化+3,200+社区技能，越用越聪明。两者可互补组合：OpenClaw 做稳定执行引擎，Hermes 做持续学习大脑。短期落地选 OpenClaw，长期陪伴选 Her