暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

神经网络反向传播算法的核心公式推导

117


 这个公式是反向传播算法的核心公式。

它描述了如何将第 l+1 层的误差逐层传递回第 l 层,是神经网络反向传播算法的核心之一。

如果不会推导这个公式,也不影响神经网络的学习,直接记住它就行。但如果想更深入地进行理解,那就请继续往下看,我们一起来推导这个公式。

要推导这个,我们需要从神经网络的前向传播反向传播的基本公式开始。(这里只推导这个数学公式,不对神经网络反向传播算法作介绍。)


另外《学习神经网络时绕不过的那些数学概念(5)  - 导数的链式法则和在反向传播算法中的应用》看这里可以复习一下导数的链式法则。



前向传播公式

在第 l 层的前向传播中:

1.加权输入:

: 第  层的加权输入。

: 第  层的权重矩阵。

: 第 层的激活(输出)。

: 第  层的偏置。

2.激活函数:

: 第 层的输出。

: 激活函数(如 Sigmoid、ReLU)。


反向传播中的目标

反向传播的核心任务是计算误差,即损失函数 对第  层加权输入  的偏导数

这个公式将用于更新权重和偏置:

权重更新公式:

偏置更新公式:

(这二个公式的推导比较简单,可自行尝试推导。)

我们需要通过层与层之间的关系,将   传递到 


损失函数的偏导数传播

(1)链式法则

为了计算  ,我们使用链式法则

(2)激活函数的导数

对于第  层:

因此:


误差从第   层传递到第    层

1. 前向传播关系

根据向前传播公式:

并且:

2.损失函数  对  的偏导数

这里的  是第  层的误差。

3.损失函数  对  的偏导数

通过链式法则:

将偏导数的计算分解为两部分:

:加权输入  对  的偏导数。

:损失函数对加权输入  的偏导数。

4.继续计算 

根据前向传播公式:

将  视为  的线性函数,然后求偏导得:

5.代入链式法则

将  和  代入:

由于:

所以:

6.合并公式

将上述结果代入到  中:

推导完毕。

7.完整计算过程



公式解释

• 第    层的误差  通过权重矩阵的转置传递到第   层。

• 转置操作逆转了前向传播中权重的方向。

• 激活函数的导数修正了误差信号,使其符合第  层的激活特性。

• 表示逐元素相乘(哈达玛积),用于逐神经元地调整误差大小。

总结

通过前向传播公式、链式法则和矩阵运算的结合,可以推导出:

这个公式描述了如何将第  层的误差逐层传递回第    层,是神经网络反向传播算法的核心公式之一。

文章转载自戏说数据那点事,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论