《从GLM-130B到ChatGLM：大模型预训练与微调》笔记

BF16牺牲了数据精度（表示由10位降到7位），但扩大了数据的表示范围（有研究表明数据表示范围比精度更重要）有个参数服务器，模型参数在参数服务器上进行更新，然后所有节点pull模型参数。alpha取0.1，手动降低embedding层的梯度。在code数据集上训练，增强大模型的逻辑推理能力。GLM和LLaMA中采用RoPE旋转式编码。100B参数的大模型开始出现智能涌现。LLaMA采用BF16训练

佛系调参

1078人浏览 · 2023-06-05 22:13:11

佛系调参 · 2023-06-05 22:13:11 发布

第一部分

100B参数的大模型开始出现智能涌现

在code数据集上训练，增强大模型的逻辑推理能力

第二部分

GLM和LLaMA中采用RoPE旋转式编码

BF16牺牲了数据精度（表示由10位降到7位），但扩大了数据的表示范围（有研究表明数据表示范围比精度更重要）

LLaMA采用BF16训练的

大部分内存占用为激活函数

有个参数服务器，模型参数在参数服务器上进行更新，然后所有节点pull模型参数

alpha取0.1，手动降低embedding层的梯度

第三部分

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

如何卸载openclaw

OpenClaw（俗称"龙虾"）是一个本地 AI 智能体平台，用于在电脑上部署自主运行的 AI 代理。

AI Agent技术社区

（已解决）安装openclaw龙虾[特殊字符]npm权限问题EACCES

先安装升级完成node和homebrew后。安装就很快了。但是遇到EACCESS问题！！！发现报错了。问题错误：核心问题是sharp解决（90%人遇到的）安装 macOS 编译工具很多人缺少，导致sharp无法编译。运行：xcode-select --install安装完成后重新执行：sharp编译需要 C++ 编译器和 node-gyp，这些都来自 Xcode CLI。

AI Agent技术社区

cover

【工具类】kali linux 安装 OpenClaw + 配置大模型 + 接入飞书 + 提示词注入实验

AI Agent技术社区

所有评论(0)

查看更多评论

佛系调参

已为社区贡献1条内容