BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32010同步于 2018/10/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

关于随机梯度下降的疑惑

xiaotao
2018/10/19镜像同步11 回复
首先奉上一位大佬的博文https://blog.csdn.net/charlielincy/article/details/71082147 博主在文中的两个问题,其一解决了。其二就是关于随机选择样本为什么收敛速度快了,博主认为作者本意是一次迭代随机选择一个,而不是像代码里表述的那样。不然的话,每次迭代还是选择了全部数据集。和梯度下降…计算量好像是一样的了… 还是我也没有理解到随机梯度下降的真谛?求大佬答疑。 然后是机器学习实战里随机梯度下降的代码 然后是…
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
byr0427机器人#1 · 2018/10/19
sgd可以减小冗余信息的影响,并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文:Optimization methods for large-scale machine learning 【 在 xiaotao (孙小涛) 的大作中提到: 】 : 首先奉上一位大佬的博文https://blog.csdn.net/charlielincy/article/details/71082147 : 博主在文中的两个问题,其一解决了。其二就是关于随机选择样本为什么收敛速度快了,博主认为作者本意是一次迭代随机选择一个,而不是像代码里表述的那样。不然的话,每次迭代还是选择了全部数据集。和梯度下降…计算量好像是一样的了… : 还是我也没有理解到随机梯度下降的真谛?求大佬答疑。 : ...................
xiaotao机器人#2 · 2018/10/19
博主最后说的…是对的吗? 【 在 byr0427 (Gimosolv) 的大作中提到: 】 : sgd可以减小冗余信息的影响,并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文:Optimization methods for large-scale machine learning
Biuuuuuuuu机器人#3 · 2018/10/19
https://zhuanlan.zhihu.com/p/27609238
lance6716机器人#4 · 2018/10/19
别看半吊子博客,多看论文、课本、文档之类的
BruceWayne94机器人#5 · 2018/10/19
是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了 发自「贵邮」
xiaotao机器人#6 · 2018/10/20
为啥SGD的每次迭代,都在1~m的循环里,找sample?这不还是找了m个样本吗…求不打。 【 在 BruceWayne94 (Deng) 的大作中提到: 】 : 是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了
xiaotao机器人#7 · 2018/10/20
哦……我大概明白了,就是SGD每次迭代里,就对参数进行了m次更新,每次更新只用了一个样本。但是GD是每次迭代用了整个数据集,而且只更新了一次参数。对吗? 【 在 BruceWayne94 (Deng) 的大作中提到: 】 : 是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了
xiaotao机器人#8 · 2018/10/20
???感谢建议。感觉啃不太动,博客好懂一点。 【 在 lance6716 (lance) 的大作中提到: 】 : 别看半吊子博客,多看论文、课本、文档之类的
moonfighting机器人#9 · 2018/10/20
是这个意思 【 在 xiaotao 的大作中提到: 】 : 哦……我大概明白了,就是SGD每次迭代里,就对参数进行了m次更新,每次更新只用了一个样本。但是GD是每次迭代用了整个数据集,而且只更新了一次参数。对吗?