返回信息流首先奉上一位大佬的博文https://blog.csdn.net/charlielincy/article/details/71082147
博主在文中的两个问题,其一解决了。其二就是关于随机选择样本为什么收敛速度快了,博主认为作者本意是一次迭代随机选择一个,而不是像代码里表述的那样。不然的话,每次迭代还是选择了全部数据集。和梯度下降…计算量好像是一样的了…
还是我也没有理解到随机梯度下降的真谛?求大佬答疑。
然后是机器学习实战里随机梯度下降的代码
然后是…
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #32010同步于 2018/10/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
关于随机梯度下降的疑惑
xiaotao
2018/10/19镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
sgd可以减小冗余信息的影响,并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文:Optimization methods for large-scale machine learning
【 在 xiaotao (孙小涛) 的大作中提到: 】
: 首先奉上一位大佬的博文https://blog.csdn.net/charlielincy/article/details/71082147
: 博主在文中的两个问题,其一解决了。其二就是关于随机选择样本为什么收敛速度快了,博主认为作者本意是一次迭代随机选择一个,而不是像代码里表述的那样。不然的话,每次迭代还是选择了全部数据集。和梯度下降…计算量好像是一样的了…
: 还是我也没有理解到随机梯度下降的真谛?求大佬答疑。
: ...................
博主最后说的…是对的吗?
【 在 byr0427 (Gimosolv) 的大作中提到: 】
: sgd可以减小冗余信息的影响,并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文:Optimization methods for large-scale machine learning
为啥SGD的每次迭代,都在1~m的循环里,找sample?这不还是找了m个样本吗…求不打。
【 在 BruceWayne94 (Deng) 的大作中提到: 】
: 是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了
哦……我大概明白了,就是SGD每次迭代里,就对参数进行了m次更新,每次更新只用了一个样本。但是GD是每次迭代用了整个数据集,而且只更新了一次参数。对吗?
【 在 BruceWayne94 (Deng) 的大作中提到: 】
: 是每次对一个sample做梯度下降 不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了
???感谢建议。感觉啃不太动,博客好懂一点。
【 在 lance6716 (lance) 的大作中提到: 】
: 别看半吊子博客,多看论文、课本、文档之类的
是这个意思
【 在 xiaotao 的大作中提到: 】
: 哦……我大概明白了,就是SGD每次迭代里,就对参数进行了m次更新,每次更新只用了一个样本。但是GD是每次迭代用了整个数据集,而且只更新了一次参数。对吗?