GLM完全指南：揭秘通用语言模型的自回归空白填充预训练技术

孙悦彤

762人浏览 · 2026-03-23 03:55:04

孙悦彤 · 2026-03-23 03:55:04 发布

GLM完全指南：揭秘通用语言模型的自回归空白填充预训练技术

【免费下载链接】GLM GLM (General Language Model) 项目地址: https://gitcode.com/gh_mirrors/glm2/GLM

通用语言模型（GLM）是一种创新的预训练框架，采用自回归空白填充技术，能够在单一模型中统一处理自然语言理解和生成任务。GLM通过创新的自回归空白填充预训练方法，在SuperGLUE、CNN/Daily Mail、XSum等多个基准测试中取得了最先进的性能表现。

🔍 GLM核心技术解析

GLM的核心创新在于其**自回归空白填充（Autoregressive Blank Infilling）**预训练目标。与传统的BERT掩码语言模型或GPT自回归模型不同，GLM将输入文本中的多个片段随机替换为[MASK]标记，然后以自回归方式按任意顺序预测这些空白内容。

三种掩码标记的智能应用

GLM设计了三种不同类型的掩码标记，分别对应不同粒度的预测任务：

[MASK]：用于短空白填充，预测单个词或短语
[sMASK]：用于句子级填充，预测完整句子
[gMASK]：用于从左到右的生成任务

这种灵活的设计使得GLM能够处理从词汇级到文档级的各种语言任务。在model/modeling_glm.py中，GLM模型的实现展示了如何将这些掩码策略整合到统一的Transformer架构中。

🚀 快速开始：GLM模型部署指南

环境配置与安装

要开始使用GLM，首先需要克隆仓库并安装依赖：

git clone https://gitcode.com/gh_mirrors/glm2/GLM
cd GLM
pip install -r requirements.txt

项目提供了两种Docker镜像支持：基于CUDA 10.2的glm-cuda102和基于CUDA 11.2的glm-cuda112，可通过docker/cuda102.dockerfile自定义配置。

预训练模型选择

GLM提供了多种规模的预训练模型，从1.1亿参数的GLM-Base到100亿参数的GLM-10B：

模型名称	参数量	语言	训练数据	适用场景
GLM-Base	110M	英文	Wiki+Book	基础理解任务
GLM-Large	335M	英文	Wiki+Book	通用NLP任务
GLM-10B	10B	英文	Pile数据集	大规模生成任务
GLM-10B-Chinese	10B	中文	悟道语料库	中文NLP任务

所有模型配置文件位于config_tasks/目录，如config_tasks/model_blocklm_10B.sh定义了GLM-10B的配置。

🛠️ 实战应用：GLM下游任务微调

SuperGLUE任务微调

GLM在SuperGLUE基准测试中表现优异，支持多种自然语言理解任务。微调脚本位于scripts/ds_finetune_superglue.sh，支持P-Tuning技术提升小样本学习性能。

执行COPA数据集微调：

bash scripts/ds_finetune_superglue.sh \
     config_tasks/model_blocklm_10B.sh \
     config_tasks/task_copa.sh

序列到序列任务

GLM在文本摘要任务上表现突出，支持CNN/Daily Mail、XSum等数据集。配置文件config_tasks/seq_cnndm.sh定义了摘要任务的超参数设置。

运行文本摘要微调：

bash scripts/ds_finetune_seq2seq.sh \
     config_tasks/model_blocklm_10B.sh \
     config_tasks/seq_cnndm_org.sh

零样本多项选择评估

GLM支持零样本多项选择评估，脚本位于scripts/evaluate_multichoice.sh，数据格式要求每个样本包含上下文、问题选项和标签。

📊 性能表现：GLM在各基准测试中的优异结果

SuperGLUE排行榜表现

在SuperGLUE开发集上，GLM-10B在多个任务中取得领先成绩：

COPA：98.0%准确率
WSC：95.2%准确率
ReCoRD：94.4/94.0 F1/EM分数
BoolQ：88.7%准确率

文本摘要任务优势

在CNN/Daily Mail测试集上，GLM-10B取得：

ROUGE-1：44.7
ROUGE-L：41.4

在XSum数据集上表现更为突出：

ROUGE-1：48.9
ROUGE-2：25.7

语言建模能力

零样本评估结果显示GLM-10B在LAMBADA任务上达到72.35%的准确率，在Wikitext103上获得11.33的困惑度，显著优于同等规模的GPT-2模型。

🔧 高级功能：GLM的特色应用场景

交互式空白填充

GLM支持交互式文本生成和空白填充，通过scripts/generate_block.sh脚本可实现：

bash scripts/generate_block.sh \
     config_tasks/model_blocklm_10B_chinese.sh

支持多种掩码组合，如同时使用[MASK]和[sMASK]进行多粒度预测。

自定义数据训练

对于自定义序列到序列数据，需要将数据转换为{split}.source和{split}.target格式，然后使用config_tasks/seq_customization.sh进行训练。

模型并行支持

对于大模型训练，GLM支持模型并行技术。通过change_mp.py脚本可将检查点分割到多个GPU：

python change_mp.py path_to_the_checkpoint 2

然后在配置文件中更新MP_SIZE参数以启用2路模型并行。

🎯 GLM架构优势：为什么选择自回归空白填充？

统一预训练框架

GLM通过自回归空白填充实现了NLU和NLG任务的统一预训练，避免了传统方法需要为不同任务设计不同预训练目标的局限性。

2D位置编码创新

GLM引入了2D位置编码系统，同时编码空白内部和空白之间的位置信息，这在model/modeling_glm.py中有详细实现。

灵活的任务适应

通过调整空白数量和长度，GLM可以适应不同粒度的任务需求，从词汇预测到文档生成都能胜任。

📈 预训练指南：从头开始训练GLM模型

要预训练GLM-Large模型，可使用scripts/ds_pretrain_nvidia.sh脚本：

bash scripts/ds_pretrain_nvidia.sh config/ds_block_large.sh

配置文件config/ds_block_large.sh定义了预训练的超参数设置，支持DeepSpeed优化技术加速训练过程。

💡 最佳实践：GLM使用技巧与优化建议

1. 硬件配置建议

GLM-Base/Large：单GPU或中等配置
GLM-10B：多GPU并行，建议使用A100或V100
使用DeepSpeed优化内存使用

2. 微调策略

小数据集：使用P-Tuning技术
中文任务：选择GLM-10B-Chinese模型
生成任务：使用[gMASK]标记

3. 性能优化

启用混合精度训练（FP16）
使用梯度检查点减少内存占用
调整批大小和梯度累积步数

🔮 未来展望：GLM生态发展

基于GLM框架，清华大学团队开发了ChatGLM-6B，这是一个专门针对中文问答和对话优化的60亿参数模型。GLM-130B项目也在开发中，将提供1300亿参数的双语预训练模型。

GLM的开源生态包括：

tasks/superglue/：SuperGLUE任务实现
tasks/seq2seq/：序列到序列任务
tasks/language_model/：语言建模任务

📚 学习资源与社区支持

GLM项目提供了完整的文档和示例代码：

论文原文：GLM: General Language Model Pretraining with Autoregressive Blank Infilling
Hugging Face模型库：THUDM/glm-*系列模型
技术讨论：GitHub Issues和社区论坛

通过掌握GLM的自回归空白填充技术，开发者可以构建更强大、更通用的语言AI应用，在自然语言处理的各个领域取得突破性进展。

【免费下载链接】GLM GLM (General Language Model) 项目地址: https://gitcode.com/gh_mirrors/glm2/GLM

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

GSV2231@ACP# 旗舰三屏 AI 多任务显示扩展芯片

AI Agent技术社区

AI Agent Harness故障自愈：自动恢复机制

首先，我们得明确几个在全文中会反复出现、必须先建立共识的极简定义AI Agent：一个具备“感知（Perceive）- 思考（Reason）- 行动（Act）- 记忆（Memory）”四阶闭环能力的智能体，它不是单个大模型，而是由 LLM/ChatGLM/Qwen 等大模型底座、工具链调用模块、长期/短期记忆系统、对话/任务状态机、多模态感知接口等组件拼接而成的“智能协作单元”。：我更愿意把它翻译

AI Agent技术社区

AI Agent Harness Engineering 的定价模型：从成本导向到价值导向的完整策略设计

AI Agent Harness Engineering是一个新兴领域，专注于设计、构建和维护能够有效"驾驭"AI智能体的框架、工具和方法论。它涵盖了从智能体的部署、监控、治理到价值评估的全生命周期管理。随着企业对AI Agent依赖程度的增加，如何为这些"驾驭"系统定价，成为了一个既关键又复杂的问题。传统的软件定价模型（如许可证、订阅制）在AI时代面临着新的挑战。AI Agent的运行成本不仅包