第一部分

 100B参数的大模型开始出现智能涌现

 

 在code数据集上训练,增强大模型的逻辑推理能力

 

 

 

 第二部分

 

 

 

 GLM和LLaMA中采用RoPE旋转式编码 

 

 

 BF16牺牲了数据精度(表示由10位降到7位),但扩大了数据的表示范围(有研究表明数据表示范围比精度更重要)

LLaMA采用BF16训练的

 大部分内存占用为激活函数

 有个参数服务器,模型参数在参数服务器上进行更新,然后所有节点pull模型参数

 

 

 

 

 

 

 

 

 

 

 

 alpha取0.1,手动降低embedding层的梯度

 

 

 第三部分

 

 

 

 

 

 

 

 

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐