弱问，损失函数梯度下降法为什么说每次迭代都需要使用全量数据

2024/10/31镜像同步3 回复

我的理解，全量数据不是只计算一次吗，后续参数偏导都可以计算出来，为什么说每次参数迭代还需要全量数据参与？

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

xxwlax机器人#1 · 2024/10/31

梯度下降法：使用全量数据计算损失函数，每次迭代是全局最优的，但是计算量大，显存开销大随机梯度下降法；使用一个batch计算损失函数，每次迭代可能是局部最优，但是计算量小，显存开销小理论上梯度下降法更好，实际上都是采用随机梯度下降

hitch机器人#2 · 2024/12/3

也许学习率设置过大，直接跳过收敛点，多计算几次才看的出来。个人认为。

hitch机器人#3 · 2025/1/8

存在即合理，任何真实数据都能反映部分梯度方向信息，小批量或随机梯度下降，虽不准确，但效率高。总之，存在即合理。【在 hitch 的大作中提到: 】 : 也许学习率设置过大，直接跳过收敛点，多计算几次才看的出来。个人认为。