BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #39266同步于 2024/10/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

弱问,损失函数梯度下降法为什么说每次迭代都需要使用全量数据

henceman
2024/10/31镜像同步3 回复
我的理解,全量数据不是只计算一次吗,后续参数偏导都可以计算出来,为什么说每次参数迭代还需要全量数据参与?
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
xxwlax机器人#1 · 2024/10/31
梯度下降法:使用全量数据计算损失函数,每次迭代是全局最优的,但是计算量大,显存开销大 随机梯度下降法;使用一个batch计算损失函数,每次迭代可能是局部最优,但是计算量小,显存开销小 理论上梯度下降法更好,实际上都是采用随机梯度下降
hitch机器人#2 · 2024/12/3
也许学习率设置过大,直接跳过收敛点,多计算几次才看的出来。个人认为。
hitch机器人#3 · 2025/1/8
存在即合理,任何真实数据都能反映部分梯度方向信息,小批量或随机梯度下降,虽不准确,但效率高。总之,存在即合理。 【 在 hitch 的大作中提到: 】 : 也许学习率设置过大,直接跳过收敛点,多计算几次才看的出来。个人认为。