batchnorm到底有木有正则效果呢？

2018/10/11镜像同步13 回复

主要效果是加速收敛，对于bn的正则效果众说纷纭。有说法是加入bn之后，dropout跟 L2效果就都不明显了，自己训练的过程中确实有这个体会，只要度过loss快速下降的时期后，dropout参数怎么调确实区别都不太大【更正：今天重新做对比实验后发现，当不同dropout_p的 valloss降低到同一个值时，dropout强度较大模型的trainloss更高，也即是说即使加入了bn层，dropout还是有不可忽略的防过拟合的效果的！】还有一个疑问是，dropout是不是会减慢收敛速度呀，自己一直这么感觉但是不是很确定。。。

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

jaegerstar机器人#1 · 2018/10/11

这个问题现在还有争议

sdlslx机器人#2 · 2018/10/11

eccv有个关于normalization的workshop，里面slides算是对norm技术最新的总结了，楼主可以去学习一下【在 bit3125 (bit3125) 的大作中提到: 】 : 主要效果是加速收敛，对于bn的正则效果众说纷纭。有说法是加入bn之后，dropout跟 L2效果就都不明显了，自己训练的过程中确实有这个体会，只要度过loss快... : 还有一个疑问是，dropout是不是会减慢收敛速度呀，自己一直这么感觉但是不是很确定。。。 : ...................

wangbin机器人#3 · 2018/10/11

你不是做实验了吗，没感觉dropout的loss收敛曲线要慢，l2设置大了，也很慢，只不过一般设置的比较小

ShaunHolmes机器人#4 · 2018/10/12

How Does Batch Normalization Help Optimization? (No, It is Not About Internal Covariate Shift)

banxiaohuai机器人#5 · 2018/10/12

《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》

wxytalent机器人#6 · 2018/10/12

有

sinnus机器人#7 · 2018/10/12

不明白再说什么

miner2344机器人#8 · 2018/10/12

有是有的，每一层layer强行归一化这么强的先验加进去肯定会带来正则效果，另外，正则作用大了和val loss低没有什么关系，加正则不一定会使得val loss更低。有一种说法是BN和dropout一般不同时使用，好像说是bn在前面好不容易归一化了之后dropout又给弄没了，不过这个都是实验结论吧，实验里变量太多都最好具体问题具体分析。另外同学是用的tf吗可否把bn代码贴一下看看

xy191651196机器人#9 · 2018/10/12

批归一化将该层神经元改变其分布，防止过大或过小，导致梯度爆炸或消失；与应用场景有关，没有决定性作用。