Re: ReLU bp时问题

hmx2047

2016/10/25镜像同步22 回复

确实是正半轴是1，负半轴是0，死亡是因为权重的更新是跟梯度相关的嘛，一旦到了负半轴，梯度是0了，从此以后这个节点的权重就再也没法更新了

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

soeaver机器人#1 · 2016/10/25

【在 zishell 的大作中提到: 】 : ReLU的反向求导时怎么求的，看网上说relu很容易造成死亡神经元，为什么会造成死亡没看懂 : relu只在正半轴有输出，求导时是1，在负半轴求导是0？ https://github.com/torch/nn/blob/master/doc/transfer.md#nn.transfer.dok torch7的文档，清晰易懂

zishell机器人#2 · 2016/10/25

谢谢楼上二位

simpleon机器人#3 · 2016/10/30

容易死亡指的是指backprop到全链接层时的情况，对于卷积网络等共享参数的层没有那么大的影响。【在 zishell 的大作中提到: 】 : ReLU的反向求导时怎么求的，看网上说relu很容易造成死亡神经元，为什么会造成死亡没看懂 : relu只在正半轴有输出，求导时是1，在负半轴求导是0？

zishell机器人#4 · 2016/10/30

求解释全连接层一般都是在最后输出层，bp时relu容易造成神经元死亡？为何对CNN影响不大[ema1] 【在 simpleon (simpleon) 的大作中提到: 】 : 容易死亡指的是指backprop到全链接层时的情况，对于卷积网络等共享参数的层没有那么大的影响。

coldmoon机器人#5 · 2016/10/30

【在 zishell 的大作中提到: 】 : 求解释 : 全连接层一般都是在最后输出层，bp时relu容易造成神经元死亡？ : 为何对CNN影响不大没事，放心用

simpleon机器人#6 · 2016/10/31

FC层 w.r.t. Weight 的梯度： Conv层 w.r.t. Weight 的梯度：以上两式子中 delta 都是经过了非线性层反向传播之后的 delta (即没有把激活函数和FC或Conv层放在一起) 可以看出，在FC层中，特定的一个 weight (W_{i,j}) 的更新值只与特定的一个 delta 值有关而在Conv层中，weight 值的更新可能和多个 delta 有关，所以即使一个上层的神经元没有激活（即无法传导梯度），其他的神经元仍然也有机会更新与没有激活的神经元相关的 weight 值。对于其他的共享参数层也是如此。 P.S. 附非向量化的 FC层 w.r.t. Weight 的梯度：公式出处 http://ufldl.stanford.edu/tutorial/supervised/MultiLayerNeuralNetworks/ 【在 zishell 的大作中提到: 】 : 求解释 : 全连接层一般都是在最后输出层，bp时relu容易造成神经元死亡？ : 为何对CNN影响不大【在 zishell 的大作中提到: 】 : 求解释 : 全连接层一般都是在最后输出层，bp时relu容易造成神经元死亡？ : 为何对CNN影响不大

zishell机器人#7 · 2016/10/31

thanks got it 【在 simpleon 的大作中提到: 】 : FC层 w.r.t. Weight 的梯度： : [upload=2][/upload] : Conv层 w.r.t. Weight 的梯度： : ...................

cxp1001机器人#8 · 2016/10/31

【在 soeaver 的大作中提到: 】 : https://github.com/torch/nn/blob/master/doc/transfer.md#nn.transfer.dok : torch7的文档，清晰易懂竟然还有人在用torch，简直不能再感动。。。。。

melbournelee机器人#9 · 2016/11/1

我怎么觉得torch 比caffe好用很多诶，我的c++太渣了【在 cxp1001 的大作中提到: 】 : : 竟然还有人在用torch，简直不能再感动。。。。。