《从GLM-130B到ChatGLM:大模型预训练与微调》笔记
BF16牺牲了数据精度(表示由10位降到7位),但扩大了数据的表示范围(有研究表明数据表示范围比精度更重要)有个参数服务器,模型参数在参数服务器上进行更新,然后所有节点pull模型参数。alpha取0.1,手动降低embedding层的梯度。在code数据集上训练,增强大模型的逻辑推理能力。GLM和LLaMA中采用RoPE旋转式编码。100B参数的大模型开始出现智能涌现。LLaMA采用BF16训练
·
第一部分
100B参数的大模型开始出现智能涌现

在code数据集上训练,增强大模型的逻辑推理能力



第二部分




GLM和LLaMA中采用RoPE旋转式编码



BF16牺牲了数据精度(表示由10位降到7位),但扩大了数据的表示范围(有研究表明数据表示范围比精度更重要)
LLaMA采用BF16训练的

大部分内存占用为激活函数


有个参数服务器,模型参数在参数服务器上进行更新,然后所有节点pull模型参数











alpha取0.1,手动降低embedding层的梯度




第三部分








更多推荐



所有评论(0)