xiaotao@xiaotao
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“这样计算的条件概率。。。有点迷茫。。。”
“应该说,但是代码里是第一个式子,,这就是计算出现的概率吧。不是条件概率吧…………”
“…书上和我百度到的博客上,都是这里一样,上面有∑,下面没了… 【 在 poetry (AIer) 的大作中提到: 】 : 我觉得楼主写‘求和符号’那里的Σ应该不存在,本身p(y≠Ck | X=x)已经可以表示所有不是Ck的损失之和了。 : 正常推导:假设真实类别为C4, 总类别数K > 4 , : 则ΣL(Ck, y)…”
“谢谢…最近在啃机器学习实战和统计学习方法 【 在 byr0427 (Gimosolv) 的大作中提到: 】 : 不如去看看林轩田的机器学习基石,记得你之前说看书不如看博客好懂,那看公开课应该是最好懂的,也不至于像博客这样水平参差。”
“???感谢建议。感觉啃不太动,博客好懂一点。 【 在 lance6716 (lance) 的大作中提到: 】 : 别看半吊子博客,多看论文、课本、文档之类的”
“哦……我大概明白了,就是SGD每次迭代里,就对参数进行了m次更新,每次更新只用了一个样本。但是GD是每次迭代用了整个数据集,而且只更新了一次参数。对吗? 【 在 BruceWayne94 (Deng) 的大作中提到: 】 : 是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch…”
“为啥SGD的每次迭代,都在1~m的循环里,找sample?这不还是找了m个样本吗…求不打。 【 在 BruceWayne94 (Deng) 的大作中提到: 】 : 是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了”
“博主最后说的…是对的吗? 【 在 byr0427 (Gimosolv) 的大作中提到: 】 : sgd可以减小冗余信息的影响,并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文:Optimization methods for large-scale machine learning”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。