01 - LLM 大语言模型:人工智能的核心引擎
知道agent等等具体流程,都是什么
这是"从 LLM 到 Agent Skill"系列的第一篇。我们从最底层开始——大语言模型到底是什么,它是怎么运作的。
一、什么是 LLM?
LLM(Large Language Model,大语言模型),是当前这场 AI 浪潮当之无愧的"C 位"。
你可能听过 ChatGPT、Claude、Gemini、文心一言、通义千问……这些产品的背后,都站着一个大语言模型。它们形态各异,但骨子里遵循同一套底层逻辑。
几乎所有现代大语言模型,都基于 Google 在 2017 年提出的 Transformer 架构。这个架构在当时只是一篇论文——《Attention Is All You Need》,如今回头看,说是改变了世界也不为过。
二、LLM 的本质:一个"文字接龙"游戏
如果你只能记住关于 LLM 的一件事,记住这个:
LLM 的本质,是一个基于概率预测的"文字接龙"游戏。
什么叫"文字接龙"?
你给模型一段文字,比如:
"今天天气真"
模型会在它学过的海量语料中,计算出下一个最可能出现的字是什么。它可能会算出:
-
"好"——概率 60%
-
"热"——概率 25%
-
"冷"——概率 10%
-
其他——概率 5%
于是它输出"好"。然后把"好"拼接到输入末尾,继续预测下一个字:
"今天天气真好,"
继续:
"今天天气真好,适合"
继续:
"今天天气真好,适合出去走走。"
就这样一个词一个词地接下去,直到生成一个完整的回答。
三、Transformer 做了什么?
"文字接龙"这个比喻很直观,但底层显然不是真的在翻字典。LLM 内部运作的核心是 Transformer 架构。
简单来说,Transformer 做了三件关键的事:
3.1 把文字变成数字(嵌入)
计算机不认识汉字,只认识数字。所以第一步是把每个词映射成一个高维向量——也就是一串数字。这叫 Embedding(嵌入)。
3.2 理解上下文关系(注意力机制)
"Attention(注意力机制)"是 Transformer 的灵魂。
回到"今天天气真"这个例子。模型不是孤立地看最后一个字,而是会"关注"这句话里所有其他词之间的关系。比如它知道"今天"和"天气"是关联的,"真"后面通常接一个形容词。
这种让每个词都能"看见"句子中其他所有词的能力,就是"自注意力(Self-Attention)"。
3.3 层层堆叠,越来越"懂"
一个 Transformer 不是只有一层。GPT-4 据说有上百层。每一层都会重新计算词与词之间的关系,层层抽象,最终在最后一层输出每一个位置上最可能的下一个词的概率分布。
四、一个关键认知:模型只会输出文本
这里有一个贯穿整个系列的核心认知,现在就要建立:
大语言模型唯一的能力,就是输出文本。
它不会"思考",没有"意识",不能"调用"任何外部工具,也无法"感知"外部世界。
后面我们会讲到的工具调用(Tool)、智能体(Agent)等等,本质上都是围绕这个只会"文字接龙"的核心引擎,在外部搭建的一套脚手架。
明白这一点,你就抓住了理解一切 AI 应用的钥匙。
五、LLM 是怎么训练出来的?
虽然这不是本文的重点,但简要提及三个核心阶段有助于建立完整的认知:
| 阶段 | 做什么 | 目的 |
|---|---|---|
| 预训练(Pre-training) | 在海量文本上做"文字接龙"练习 | 让模型学会语言规律、世界知识 |
| 监督微调(SFT) | 用高质量的"问题-回答"对训练 | 让模型学会"对话",知道什么是好答案 |
| 人类反馈强化学习(RLHF) | 人类对回答打分,模型据此调整 | 让回答更符合人类偏好(有帮助、安全、无害) |
六、主流模型一览
目前(2025~2026年),市面上的主流大模型可以分为几大阵营:
海外
| 模型 | 开发方 | 特点 |
|---|---|---|
| GPT-4o / GPT-4.5 | OpenAI | 多模态、生态成熟、ChatGPT 加持 |
| Claude 4 系列(Opus / Sonnet / Haiku) | Anthropic | 安全性强、代码能力突出、Context Window 大 |
| Gemini 2.5 | 原生多模态、与 Google 生态深度整合 |
国内
| 模型 | 开发方 | 特点 |
|---|---|---|
| DeepSeek | 深度求索 | 开源、推理能力强、性价比高 |
| Qwen(通义千问) | 阿里 | 开源生态活跃、中文能力强 |
| 文心一言 | 百度 | 中文理解细腻、本土化做得好 |
| Kimi | 月之暗面 | 超长上下文、RAG 能力强 |
七、总结
LLM 这个第一块积木,记住三句话就够了:
-
LLM 基于 Transformer 架构,本质是"文字接龙"——逐词预测下一个最可能的输出。
-
LLM 唯一的能力是输出文本,它不会思考、不能调用工具、无法感知世界。
-
所有更上层的 AI 能力(工具、Agent 等),都是围绕这个核心引擎搭建的外部系统。
下一篇,我们来聊聊 LLM 是怎么"读"文字的——Tokenizer 与 Token,也就是模型处理文本的最小单元。
本系列文章:
-
LLM 大语言模型 ← 你在这里
-
Token 与 Tokenizer(待发布)
-
Context 与 Context Window(待发布)
-
Prompt 提示词(待发布)
-
Tool 工具调用(待发布)
-
MCP 模型上下文协议(待发布)
-
Agent 智能体(待发布)
-
Agent Skill(待发布)
更多推荐


所有评论(0)