返回信息流主要效果是加速收敛,对于bn的正则效果众说纷纭。有说法是加入bn之后,dropout跟 L2效果就都不明显了,自己训练的过程中确实有这个体会,只要度过loss快速下降的时期后,dropout参数怎么调确实区别都不太大【更正:今天重新做对比实验后发现,当不同dropout_p的 valloss降低到同一个值时,dropout强度较大模型的trainloss更高,也即是说即使加入了bn层,dropout还是有不可忽略的防过拟合的效果的!】
还有一个疑问是,dropout是不是会减慢收敛速度呀,自己一直这么感觉但是不是很确定。。。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #31932同步于 2018/10/11
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
batchnorm到底有木有正则效果呢?
bit3125
2018/10/11镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
eccv有个关于normalization的workshop,里面slides算是对norm技术最新的总结了,楼主可以去学习一下
【 在 bit3125 (bit3125) 的大作中提到: 】
: 主要效果是加速收敛,对于bn的正则效果众说纷纭。有说法是加入bn之后,dropout跟 L2效果就都不明显了,自己训练的过程中确实有这个体会,只要度过loss快...
: 还有一个疑问是,dropout是不是会减慢收敛速度呀,自己一直这么感觉但是不是很确定。。。
: ...................
How Does Batch Normalization Help Optimization? (No, It is Not About Internal Covariate Shift)
《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》
有是有的,每一层layer强行归一化这么强的先验加进去肯定会带来正则效果,另外,正则作用大了和val loss低没有什么关系,加正则不一定会使得val loss更低。有一种说法是BN和dropout一般不同时使用,好像说是bn在前面好不容易归一化了之后dropout又给弄没了,不过这个都是实验结论吧,实验里变量太多都最好具体问题具体分析。另外同学是用的tf吗可否把bn代码贴一下看看