常用的优化算法

IT那活儿 2024-05-22

376

点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享，不管IT什么活儿，干就完了！！！

梯度下降的三种变体

1.1 批量梯度下降

使用全部数据计算梯度，进而更新参数因为我们需要遍历整个数据集，再执行一次更新参数，所以批量梯度下降更新参数速度慢。另外批量梯度下降也不适合大数据集。批量梯度下降也不适合实时场景，不能在线更新模型。

但批量梯度下降的优点是训练稳定。

1.2 随机梯度下降-SGD

算法计算每个样本的损失，进而更新参数SGD由于每次只使用一个训练数据计算梯度更新参数，所以SGD更新参数更快。另一方面由于SGD执行频繁的更新参数，计算的梯度方差高，导致目标函数剧烈波动。

SGD的波动性一方面可以使目标函数能够跳到更好的局部极小值，另一方面会使目标函数在最小值周围上下波动。

1.3 MSGD-小批量梯度下降

计算一个批次内的样本的损失，进而更新参数计算的梯度方差小(训练稳定) ，计算速度快，使用内存小。

现在一般深度学习使用小批量梯度下降算法来更新模型， n 常取2的指数倍。

一般来说，很多人都会把SGD默认为是MSGD。所以有时候看到不要奇怪。现在常用SGD指代小批量梯度下降。

动量优化有两个变体

动量优化方法引入物理学中的动量思想，有Momentum和Nesterov两种算法。

2.1 Momentum

引入了一阶动量。Momentum 是各个时刻梯度的指数移动平均值。

这个动量很有意思，一般动量是mv，m是质量，这里没有，就是我们的一个超参数，比如0.9；

Momentum是一种有助于抑制SGD振荡并加快SGD向最小值收敛的方法。

Momentum将过去时间的梯度向量添加到当前梯度向量。

这个

类比到动量就是速度，前面的参数就是质量，这里是我们自己定义的超参数。

下面谈到的牛顿加速，是先往前走了一步，怎么走的呢? 是用了第一个公式的前半部分。

Momentum参数更新公式为：

的计算方式类似于指数加权平均数，其中 γ 常取0.9。γ 决定过去一段时间的梯度向量和当前时间的梯度和权重比。普通SGD和带Momentum的SGD练过程对比如下图

优化算法寻找目标函数最小值的过程就像使用一个小球在一个超平面滚来滚去最终滚到最低点的过程。SGD每次通过一个批次的数据决定小球接下来要滚的方向，由于每次只使用一个小批次的数据计算梯度，得到的梯度只是损失函数在这一小批次数据上的梯度。所以各个批次数据得到的梯度有一定的方差，小球每次滚的方向和距离都不一样。但是大致方向上小球还是朝着最低点前进的。
如左图所示。
带Momentum的SGD在训练时仿佛有惯性一样，会沿着前面一段时间的梯度方向往前“冲”，就像本身具有“动量”一样。这也是Momentum名字的由来。每当小球要转变方向时，例如从“向右上”转到“向右下”，由于“动量”的存在，之前一段时间“向上"方向的动量和当前时刻“向下”方向的动量抵消，之前一段时间“向右”的动量和现在时刻“向右”的动量叠加，所以小球可以少走弯路，更快的滚向最低点。动量可以在方向错误时将其“拉”回来，方向正确时将其再“推”快点。
如右图所示。

2.2 Nesterov accelerated gradient (NAG) 牛顿加速法

Nesterov的特点是同样有一阶动量。

先根据当前的动量往前走一步(注意是只根据了当前的动量这一部分)，然后到达了下一个点，计算此时的梯度，然后更新。取决于下一个时刻的梯度和此时的动量。

在前面的小球的例子中，如果小球能够事先知道自己在下一时刻的位置，那么小球就可以提前知道自己是应该“拉”回来还是“推”快点。那么小球就可以提前改变方向和速度。

NAG从这一想法出发，从Momentum的参数更新公式我们知道不管当前时刻