coldmoon@coldmoon
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“【 在 zzzccc 的大作中提到: 】 : 请问各位大神,CNN中ReLU激励函数的负半轴梯度为0,易导致神经元死亡,但是后面Leaky ReLu中,负半轴的梯度为0.01,为什么不直接改进为负半轴梯度为-1呢?为什么要牺牲掉负半轴的信息呢? 这么说吧,你想让负半轴也输出非零数值,也不是没有用。负半轴的数值也是包含信…”
“【 在 icybee 的大作中提到: 】 : 谢谢你的建议~ &&train 和 test的loss我画图的时候没有对齐,对齐看是在学习率变化后train 和test loss 都明显下降,然后才过拟合 你可以画 test error 曲线,test loss 一般不用。因为有的人写代码计算 test loss 是对一…”
“【 在 XZC 的大作中提到: 】 : 算是找到答案了,解了我昨天的心中之惑,哈哈,谢谢你! : 延伸一下,既然ReLU是存在硬饱和,理论上讲是和sigmoid一样的问题存在,可是在受欢迎程度上讲,似乎ReLU更好一些,不知道具体是缘何,难道就因为ReLU在右部分比较完美,而sigmoid在两端都不太完美造成的这种迥异…”
“【 在 icybee 的大作中提到: 】 : 6W iter的时候比较特殊,是在6W iter左右把learning rate剑到原来的十分之一,所以会loss有一个较大下降,然后每轮训练之后是有去shuffle train set的,inception-resnet-v1 我也试过,各种原因没有resnet效果好,差…”
“楼主思考的不错,这是个定义问题。你的问题在 Bengio 的 ICML 2016 文章 Noisy Activation Functions 里已经给出了解答: 饱和被形式化定义为 硬饱和 和 软饱和。ReLU是左硬饱和,硬了;Sigmoid 那种是软饱和,软了。”
“肯定是男的”
“多虑了”
“看了一集实在看不下去了,这剧是通过蓄意打乱逻辑和时间顺序的方式来引出“悬念”。感觉这种手法有些故弄玄虚,1 个小时过去了,看不出这剧想表达什么。”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。