手搓神经网络系列之 —— 卷积运算的反向传播（一）

发表于 2021-08-04|手搓神经网络

| 字数总计:1.1k|阅读时长:4 分钟 | 阅读量:181| 评论数:0

AI 摘要 Kimi Chat

这篇文章介绍了卷积神经网络中卷积运算的反向传播过程。通过数学推导，作者详细解释了如何计算数据张量X和卷积核张量W的梯度。文章强调了链式法则的应用，卷积核的旋转，以及在步长大于1时对梯度进行的dilate操作。最后

前面写了整整三篇文章讨论了卷积运算的正向传播，本文将进入卷积运算的反向传播部分，将涉及到一些简单的数学公式推导（与其说是推导，不如说是瞪眼法 + 直接写结论），都是最简单的线性函数，不必裂开。

本系列全部代码见下面仓库：

引用站外地址，不保证站点的可用性和安全性

autograd-with-numpy

GitHub

如有算法或实现方式上的问题，请各位大佬轻喷 + 指正！

我们以下面简单的卷积过程为例，推导卷积运算的梯度传播式：

我们将上面的卷积过程展开写出来，得到下面 4 个方程：

{\begin{array}{r} z_{00} = x_{00} w_{00} + x_{01} w_{01} + x_{10} w_{10} + x_{11} w_{11} \\ z_{01} = x_{01} w_{00} + x_{02} w_{01} + x_{11} w_{10} + x_{12} w_{11} \\ z_{10} = x_{10} w_{00} + x_{11} w_{01} + x_{20} w_{10} + x_{21} w_{11} \\ z_{11} = x_{11} w_{00} + x_{12} w_{01} + x_{21} w_{10} + x_{22} w_{11} \end{array}

已知传至张量 $Z$ 的梯度为 $δ_{Z}$ ，我们分别对数据张量 $X$ 和卷积核张量 $W$ 计算梯度。

对 X 的梯度

下面先计算对 $X$ 的梯度 $δ_{X}$ ，通过简单的链式法则即可得到：

{\begin{aligned} δ_{x_{00}} = w_{00} δ_{z_{00}} \\ δ_{x_{01}} = w_{01} δ_{z_{00}} + w_{00} δ_{z_{01}} \\ δ_{x_{02}} = w_{01} δ_{z_{01}} \\ δ_{x_{10}} = w_{10} δ_{z_{00}} + w_{00} δ_{z_{10}} \\ δ_{x_{11}} = w_{11} δ_{z_{00}} + w_{10} δ z_{01} + w_{01} δ z_{10} + w_{00} δ_{z_{11}} \\ δ_{x_{12}} = w_{11} δ_{z_{01}} + w_{01} δ_{z_{11}} \\ δ_{x_{20}} = w_{10} δ_{z_{10}} \\ δ_{x_{21}} = w_{11} δ_{z_{10}} + w_{10} δ_{z_{11}} \\ δ_{x_{22}} = w_{11} δ_{z_{11}} \end{aligned}

乍一看十分复杂，但事实上，通过瞪眼法我们可得出，这是以下卷积过程的展开式：

其中，左侧是 $Z$ 的梯度矩阵 $δ_{Z}$ 经过一圈 padding 之后的样子，中间的卷积核是原来的卷积核 $W$ ，经过 180 度的旋转所得到的，回顾前一篇文章所讲到的，这种旋转相当于张量所有元素在内存上的顺序 reverse 了一下。

需要注意的是，若正向卷积时的步长大于 1，那么在这里计算梯度 $δ_{X}$ 的时候，需要对梯度 $δ_{Z}$ 额外进行一次插入 0 的操作，我将这种操作称为 dilate，各位可以自己去推导一下，看看究竟需要做什么操作。

我们可以将上面的梯度表达式简写为：

δ_{X} = p a d (d i l a t e (δ_{Z})) * r o t a t e 180 (W)

通过简单的推导，可以发现，pad 的圈数，应该与正向卷积的步长是相关的，不过其实还有一个巧妙的算法，即通过这三者的形状进行反推，感兴趣的话可以去推导一下。

对 W 的梯度

接下来计算对卷积核 $W$ 的梯度 $δ_{W}$ ，同样由前面的方程进行链式法则计算：

{\begin{aligned} δ_{w_{00}} = x_{00} δ_{z_{00}} + x_{01} δ_{z_{01}} + x_{10} δ_{z_{10}} + x_{11} δ_{z_{11}} \\ δ_{w_{01}} = x_{01} δ_{z_{00}} + x_{02} δ_{z_{01}} + x_{11} δ_{z_{10}} + x_{12} δ_{z_{11}} \\ δ_{w_{10}} = x_{10} δ_{z_{00}} + x_{11} δ_{z_{01}} + x_{20} δ_{z_{10}} + x_{21} δ_{z_{11}} \\ δ_{w_{11}} = x_{11} δ_{z_{00}} + x_{12} δ_{z_{01}} + x_{21} δ_{z_{10}} + x_{22} δ_{z_{11}} \end{aligned}

这一组公式的规律更加明显了，其相当于下面的卷积运算的展开式：

与前面计算 $δ_{X}$ 时类似，若正向卷积时的步长大于 1，那么在这里计算梯度 $δ_{W}$ 的时候，同样需要对梯度 $δ_{Z}$ 进行 dilate 操作，不过这里不需要 pad 0。

我们同样可以将上面的梯度表达式简写为：

δ_{W} = X * d i l a t e (δ_{Z})

以上，即是卷积运算的梯度传播公式，即便是高维情况下的卷积运算，也万变不离其宗。本文虽短，但思考为什么卷积的梯度传递会是这样的形式让我死了很多脑细胞。后面一篇文章，将进入卷积运算反向传播的代码实现部分！

文章作者: WindShadow

文章链接: https://blog.fyz666.xyz/blog/6034/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自逸风亭！

神经网络机器学习深度学习反向传播卷积神经网络

Telegram Qzone Facebook Twitter WeChat Sina Weibo Messenger Share

觉得本文有用？V 我 50 看看实力！

V me 50!
Alipay is also ok~

相关推荐

手搓神经网络系列之 —— 卷积运算的反向传播（二）

手搓神经网络系列之 —— 池化与 BN 层

手搓神经网络系列之 ——Tensor 类的封装思路

手搓神经网络系列之 —— 梯度反传函数具体怎么写？（一）

手搓神经网络系列之 —— 计算图及其构建方式的选择

手搓神经网络系列之 —— 卷积运算的正向传播（一）

评论

TwikooGiscus

Nickname

Email

Website

0/500

OωO
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
（╯‵□′）╯︵┴─┴
￣﹃￣
(/ω＼)
∠( ᐛ 」∠)＿
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ｀)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ(￣∇￣o)
ヾ(´･･｀｡)ノ'
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò｡)
Σ(っ °Д °;)っ
( ,,´･ω･)ﾉ'(´っω･｀｡)
╮(╯▽╰)╭
o(*////▽////*)q
＞﹏＜
( ๑´•ω•) '(ㆆᴗㆆ)

颜文字
Emoji
Bilibili
BilibiliHot
iKun
滑稽

0 comments

No comment

看板娘

欢迎阅读「手搓神经网络系列之——卷积运算的反向传播（一） | 逸风亭」