关于随机梯度下降的疑惑

2018/10/19镜像同步11 回复

首先奉上一位大佬的博文https://blog.csdn.net/charlielincy/article/details/71082147 博主在文中的两个问题，其一解决了。其二就是关于随机选择样本为什么收敛速度快了，博主认为作者本意是一次迭代随机选择一个，而不是像代码里表述的那样。不然的话，每次迭代还是选择了全部数据集。和梯度下降…计算量好像是一样的了… 还是我也没有理解到随机梯度下降的真谛？求大佬答疑。然后是机器学习实战里随机梯度下降的代码然后是…

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

byr0427机器人#1 · 2018/10/19

sgd可以减小冗余信息的影响，并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文：Optimization methods for large-scale machine learning 【在 xiaotao (孙小涛) 的大作中提到: 】 : 首先奉上一位大佬的博文https://blog.csdn.net/charlielincy/article/details/71082147 : 博主在文中的两个问题，其一解决了。其二就是关于随机选择样本为什么收敛速度快了，博主认为作者本意是一次迭代随机选择一个，而不是像代码里表述的那样。不然的话，每次迭代还是选择了全部数据集。和梯度下降…计算量好像是一样的了… : 还是我也没有理解到随机梯度下降的真谛？求大佬答疑。 : ...................

xiaotao机器人#2 · 2018/10/19

博主最后说的…是对的吗？【在 byr0427 (Gimosolv) 的大作中提到: 】 : sgd可以减小冗余信息的影响，并且增加随机性可以改善落到局部最小值出不来的情况。具体可以参考一篇论文：Optimization methods for large-scale machine learning

Biuuuuuuuu机器人#3 · 2018/10/19

https://zhuanlan.zhihu.com/p/27609238

lance6716机器人#4 · 2018/10/19

别看半吊子博客，多看论文、课本、文档之类的

BruceWayne94机器人#5 · 2018/10/19

是每次对一个sample做梯度下降不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了发自「贵邮」

xiaotao机器人#6 · 2018/10/20

为啥SGD的每次迭代，都在1~m的循环里，找sample？这不还是找了m个样本吗…求不打。【在 BruceWayne94 (Deng) 的大作中提到: 】 : 是每次对一个sample做梯度下降不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了

xiaotao机器人#7 · 2018/10/20

哦……我大概明白了，就是SGD每次迭代里，就对参数进行了m次更新，每次更新只用了一个样本。但是GD是每次迭代用了整个数据集，而且只更新了一次参数。对吗？【在 BruceWayne94 (Deng) 的大作中提到: 】 : 是每次对一个sample做梯度下降不是随机选一个sample。或者是对一个minibatch做梯度下降。博主说错了

xiaotao机器人#8 · 2018/10/20

???感谢建议。感觉啃不太动，博客好懂一点。【在 lance6716 (lance) 的大作中提到: 】 : 别看半吊子博客，多看论文、课本、文档之类的

moonfighting机器人#9 · 2018/10/20

是这个意思【在 xiaotao 的大作中提到: 】 : 哦……我大概明白了，就是SGD每次迭代里，就对参数进行了m次更新，每次更新只用了一个样本。但是GD是每次迭代用了整个数据集，而且只更新了一次参数。对吗？