返回信息流我的理解,全量数据不是只计算一次吗,后续参数偏导都可以计算出来,为什么说每次参数迭代还需要全量数据参与?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #39266同步于 2024/10/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
弱问,损失函数梯度下降法为什么说每次迭代都需要使用全量数据
henceman
2024/10/31镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
梯度下降法:使用全量数据计算损失函数,每次迭代是全局最优的,但是计算量大,显存开销大
随机梯度下降法;使用一个batch计算损失函数,每次迭代可能是局部最优,但是计算量小,显存开销小
理论上梯度下降法更好,实际上都是采用随机梯度下降
存在即合理,任何真实数据都能反映部分梯度方向信息,小批量或随机梯度下降,虽不准确,但效率高。总之,存在即合理。
【 在 hitch 的大作中提到: 】
: 也许学习率设置过大,直接跳过收敛点,多计算几次才看的出来。个人认为。