返回信息流我自己的推导了一遍,但是和网上的结果只是形式有些相似。请大神帮忙看看错在哪里。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #28902同步于 2018/4/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【问题】Batch Normalization的导数应该怎么求?
Zelda
2018/4/5镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
你看的是这个人的博客吗? https://kevinzakka.github.io/2016/09/14/batch_normalization/ 这个结果是加了trick的,这个文章里有说
如果不加trick推导出来长得样子跟这个不一样,速度大约是这个你给的结果的式子的二分之一
博客里的trick是x^-1.5=(x^-0.5)(x^-0.5)^2,只是为了化简结果,对结果没影响。
我看了一眼这个人引用的博客http://cthorey.github.io./backpropagation/
现在我怀疑我计算的结果是输入是标量的时候特殊解,但不是很确定。
【 在 whensean 的大作中提到: 】
: 你看的是这个人的博客吗? https://kevinzakka.github.io/2016/09/14/batch_normalization/ 这个结果是加了trick的,这个文章里有说
: 如果不加trick推导出来长得样子跟这个不一样,速度大约是这个你给的结果的式子的二分之一
我觉得 https://kevinzakka.github.io/2016/09/14/batch_normalization/ 这个博客中
x^i 对 xi 的求导不正确啊,xi的 normalize 对 xi的导数应该是三部分构成,毕竟 均值 方差中都有 xi,这部分你做的是对的,
【 在 Zelda 的大作中提到: 】
: 博客里的trick是x^-1.5=(x^-0.5)(x^-0.5)^2,只是为了化简结果,对结果没影响。
: 我看了一眼这个人引用的博客http://cthorey.github.io./backpropagation/
: 现在我怀疑我计算的结果是输入是标量的时候特殊解,但不是很确定。
博客是正确的。我的推导也是正确的,只不过没有算完。
xi不光可以通过x^i、yi这条路径影响loss,还可以通过其它的y影响loss。
【 在 jj8401 的大作中提到: 】
: 我觉得 https://kevinzakka.github.io/2016/09/14/batch_normalization/ 这个博客中
: x^i 对 xi 的求导不正确啊,xi的 normalize 对 xi的导数应该是三部分构成,毕竟 均值 方差中都有 xi,这部分你做的是对的,