01 - LLM 大语言模型：人工智能的核心引擎

知道agent等等具体流程，都是什么

2301_82070640

423人浏览 · 2026-05-25 08:37:39

2301_82070640 · 2026-05-25 08:37:39 发布

这是"从 LLM 到 Agent Skill"系列的第一篇。我们从最底层开始——大语言模型到底是什么，它是怎么运作的。

一、什么是 LLM？

LLM（Large Language Model，大语言模型），是当前这场 AI 浪潮当之无愧的"C 位"。

你可能听过 ChatGPT、Claude、Gemini、文心一言、通义千问……这些产品的背后，都站着一个大语言模型。它们形态各异，但骨子里遵循同一套底层逻辑。

几乎所有现代大语言模型，都基于 Google 在 2017 年提出的 Transformer 架构。这个架构在当时只是一篇论文——《Attention Is All You Need》，如今回头看，说是改变了世界也不为过。

二、LLM 的本质：一个"文字接龙"游戏

如果你只能记住关于 LLM 的一件事，记住这个：

LLM 的本质，是一个基于概率预测的"文字接龙"游戏。

什么叫"文字接龙"？

你给模型一段文字，比如：

"今天天气真"

模型会在它学过的海量语料中，计算出下一个最可能出现的字是什么。它可能会算出：

"好"——概率 60%
"热"——概率 25%
"冷"——概率 10%
其他——概率 5%

于是它输出"好"。然后把"好"拼接到输入末尾，继续预测下一个字：

"今天天气真好，"

继续：

"今天天气真好，适合"

继续：

"今天天气真好，适合出去走走。"

就这样一个词一个词地接下去，直到生成一个完整的回答。

三、Transformer 做了什么？

"文字接龙"这个比喻很直观，但底层显然不是真的在翻字典。LLM 内部运作的核心是 Transformer 架构。

简单来说，Transformer 做了三件关键的事：

3.1 把文字变成数字（嵌入）

计算机不认识汉字，只认识数字。所以第一步是把每个词映射成一个高维向量——也就是一串数字。这叫 Embedding（嵌入）。

3.2 理解上下文关系（注意力机制）

"Attention（注意力机制）"是 Transformer 的灵魂。

回到"今天天气真"这个例子。模型不是孤立地看最后一个字，而是会"关注"这句话里所有其他词之间的关系。比如它知道"今天"和"天气"是关联的，"真"后面通常接一个形容词。

这种让每个词都能"看见"句子中其他所有词的能力，就是"自注意力（Self-Attention）"。

3.3 层层堆叠，越来越"懂"

一个 Transformer 不是只有一层。GPT-4 据说有上百层。每一层都会重新计算词与词之间的关系，层层抽象，最终在最后一层输出每一个位置上最可能的下一个词的概率分布。

四、一个关键认知：模型只会输出文本

这里有一个贯穿整个系列的核心认知，现在就要建立：

大语言模型唯一的能力，就是输出文本。

它不会"思考"，没有"意识"，不能"调用"任何外部工具，也无法"感知"外部世界。

后面我们会讲到的工具调用（Tool）、智能体（Agent）等等，本质上都是围绕这个只会"文字接龙"的核心引擎，在外部搭建的一套脚手架。

明白这一点，你就抓住了理解一切 AI 应用的钥匙。

五、LLM 是怎么训练出来的？

虽然这不是本文的重点，但简要提及三个核心阶段有助于建立完整的认知：

阶段	做什么	目的
预训练（Pre-training）	在海量文本上做"文字接龙"练习	让模型学会语言规律、世界知识
监督微调（SFT）	用高质量的"问题-回答"对训练	让模型学会"对话"，知道什么是好答案
人类反馈强化学习（RLHF）	人类对回答打分，模型据此调整	让回答更符合人类偏好（有帮助、安全、无害）

六、主流模型一览

目前（2025～2026年），市面上的主流大模型可以分为几大阵营：

海外

模型	开发方	特点
GPT-4o / GPT-4.5	OpenAI	多模态、生态成熟、ChatGPT 加持
Claude 4 系列（Opus / Sonnet / Haiku）	Anthropic	安全性强、代码能力突出、Context Window 大
Gemini 2.5	Google	原生多模态、与 Google 生态深度整合

国内

模型	开发方	特点
DeepSeek	深度求索	开源、推理能力强、性价比高
Qwen（通义千问）	阿里	开源生态活跃、中文能力强
文心一言	百度	中文理解细腻、本土化做得好
Kimi	月之暗面	超长上下文、RAG 能力强

七、总结

LLM 这个第一块积木，记住三句话就够了：

LLM 基于 Transformer 架构，本质是"文字接龙"——逐词预测下一个最可能的输出。
LLM 唯一的能力是输出文本，它不会思考、不能调用工具、无法感知世界。
所有更上层的 AI 能力（工具、Agent 等），都是围绕这个核心引擎搭建的外部系统。

下一篇，我们来聊聊 LLM 是怎么"读"文字的——Tokenizer 与 Token，也就是模型处理文本的最小单元。

本系列文章：

LLM 大语言模型 ← 你在这里
Token 与 Tokenizer（待发布）
Context 与 Context Window（待发布）
Prompt 提示词（待发布）
Tool 工具调用（待发布）
MCP 模型上下文协议（待发布）
Agent 智能体（待发布）
Agent Skill（待发布）

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

从Anthropic官方文档看Claude的安全机制：隔离、模型与外部内容的三层防御体系

十二个月前，如果有人提议让Claude拥有足以搞垮Anthropic内部服务的权限，我们一定会断然拒绝。而今天，这种访问级别已经成为常态，Anthropic内部的开发者们正因为这种部署而大幅提升了生产力。这是我读完Anthropic官方工程博客《How we contain Claude across products》（2026年5月25日发布）后的第一感受。当AI Agent的能力越强大，它的