神经网络反向传播算法的核心公式推导

戏说数据那点事 2025-03-05

119

这个公式是反向传播算法的核心公式。

它描述了如何将第 l+1 层的误差逐层传递回第 l 层，是神经网络反向传播算法的核心之一。

如果不会推导这个公式，也不影响神经网络的学习，直接记住它就行。但如果想更深入地进行理解，那就请继续往下看，我们一起来推导这个公式。

要推导这个，我们需要从神经网络的前向传播和反向传播的基本公式开始。（这里只推导这个数学公式，不对神经网络反向传播算法作介绍。）

另外《学习神经网络时绕不过的那些数学概念(5) - 导数的链式法则和在反向传播算法中的应用》看这里可以复习一下导数的链式法则。

前向传播公式

在第 l 层的前向传播中：

1.加权输入：

•: 第层的加权输入。

•: 第层的权重矩阵。

•: 第层的激活（输出）。

•: 第层的偏置。

2.激活函数：

•: 第层的输出。

•: 激活函数（如 Sigmoid、ReLU）。

反向传播中的目标

反向传播的核心任务是计算误差，即损失函数对第层加权输入的偏导数：

这个公式将用于更新权重和偏置：

•权重更新公式：

•偏置更新公式：

（这二个公式的推导比较简单，可自行尝试推导。）

我们需要通过层与层之间的关系，将传递到。

损失函数的偏导数传播

（1）链式法则

为了计算，我们使用链式法则：

（2）激活函数的导数

对于第层：

因此：

误差从第层传递到第层

1. 前向传播关系

根据向前传播公式：

并且：

2.损失函数对的偏导数

这里的是第层的误差。

3.损失函数对的偏导数

通过链式法则：

将偏导数的计算分解为两部分：

•：加权输入对的偏导数。

•：损失函数对加权输入的偏导数。

4.继续计算

根据前向传播公式：

将视为的线性函数，然后求偏导得：

5.代入链式法则

将和代入：

由于：

所以：

6.合并公式

将上述结果代入到中：

推导完毕。

7.完整计算过程

公式解释

• 第层的误差通过权重矩阵的转置传递到第层。

• 转置操作逆转了前向传播中权重的方向。

• 激活函数的导数修正了误差信号，使其符合第层的激活特性。

• 表示逐元素相乘（哈达玛积），用于逐神经元地调整误差大小。

总结

通过前向传播公式、链式法则和矩阵运算的结合，可以推导出：

这个公式描述了如何将第层的误差逐层传递回第层，是神经网络反向传播算法的核心公式之一。

神经网络算法反向传播算法神经网络偏导数算法

文章转载自戏说数据那点事，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。