Deep Norm可以缓解爆炸式模型更新的问题,把模型更新限制在常数,使得模型训练过程更稳定。
Layer normalization-位置篇
1 LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?
回答:有,LN 在 LLMs 位置有以下几种:
1. Post LN:
a. 位置:layer norm在残差链接之后
b. 缺点:Post LN 在深层的梯度范式逐渐增大,导致使用post-LN的深层transformer容易出现训练不稳
定的问题
2. Pre-LN:
a. 位置:layer norm在残差链接中
b. 优点:相比于Post-LN,Pre LN 在深层的梯度范式近似相等,所以使用Pre-LN的深层transformer训
练更稳定,可以缓解训练不稳定问题
c. 缺点:相比于Post-LN,Pre-LN的模型效果略差
3. Sandwich-LN:
a. 位置:在pre-LN的基础上,额外插入了一个layer norm
b. 优点:Cogview用来避免值爆炸的问题
c. 缺点:训练不稳定,可能会导致训练崩溃。
评论