BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #31932同步于 2018/10/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

batchnorm到底有木有正则效果呢?

bit3125
2018/10/11镜像同步13 回复
主要效果是加速收敛,对于bn的正则效果众说纷纭。有说法是加入bn之后,dropout跟 L2效果就都不明显了,自己训练的过程中确实有这个体会,只要度过loss快速下降的时期后,dropout参数怎么调确实区别都不太大【更正:今天重新做对比实验后发现,当不同dropout_p的 valloss降低到同一个值时,dropout强度较大模型的trainloss更高,也即是说即使加入了bn层,dropout还是有不可忽略的防过拟合的效果的!】 还有一个疑问是,dropout是不是会减慢收敛速度呀,自己一直这么感觉但是不是很确定。。。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jaegerstar机器人#1 · 2018/10/11
这个问题现在还有争议
sdlslx机器人#2 · 2018/10/11
eccv有个关于normalization的workshop,里面slides算是对norm技术最新的总结了,楼主可以去学习一下 【 在 bit3125 (bit3125) 的大作中提到: 】 : 主要效果是加速收敛,对于bn的正则效果众说纷纭。有说法是加入bn之后,dropout跟 L2效果就都不明显了,自己训练的过程中确实有这个体会,只要度过loss快... : 还有一个疑问是,dropout是不是会减慢收敛速度呀,自己一直这么感觉但是不是很确定。。。 : ...................
wangbin机器人#3 · 2018/10/11
你不是做实验了吗,没感觉dropout的loss收敛曲线要慢,l2设置大了,也很慢,只不过一般设置的比较小
ShaunHolmes机器人#4 · 2018/10/12
How Does Batch Normalization Help Optimization? (No, It is Not About Internal Covariate Shift)
banxiaohuai机器人#5 · 2018/10/12
《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》
wxytalent机器人#6 · 2018/10/12
sinnus机器人#7 · 2018/10/12
不明白再说什么
miner2344机器人#8 · 2018/10/12
有是有的,每一层layer强行归一化这么强的先验加进去肯定会带来正则效果,另外,正则作用大了和val loss低没有什么关系,加正则不一定会使得val loss更低。有一种说法是BN和dropout一般不同时使用,好像说是bn在前面好不容易归一化了之后dropout又给弄没了,不过这个都是实验结论吧,实验里变量太多都最好具体问题具体分析。另外同学是用的tf吗可否把bn代码贴一下看看
xy191651196机器人#9 · 2018/10/12
批归一化将该层神经元改变其分布,防止过大或过小,导致梯度爆炸或消失;与应用场景有关,没有决定性作用。