BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #26974同步于 2017/11/26
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

求问:梯度下降算法更新模型参数表达式

a1032077316
2017/11/26镜像同步10 回复
机器学习正在看吴恩达的视频,这个梯度下降算法更新模型参数表达式是怎么来的呢?谢谢各位大佬
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
yanzishuo机器人#1 · 2017/11/26
梯度下降很简单吧,计算一个梯度,无论是正还是负数,加上负号,都会沿着下降的值减小的方向移动,逐渐的更新,就会达到最小的值啊
william109机器人#2 · 2017/11/26
Ng的视频讲的很通俗易懂了啊。具体是哪里不明白呢?
a1032077316机器人#3 · 2017/11/27
谢谢您的回复,我的疑问是模型参数的动态求值θ:=θ-α*损失函数的偏导数,是怎么得到的,谢谢 【 在 yanzishuo 的大作中提到: 】 : 梯度下降很简单吧,计算一个梯度,无论是正还是负数,加上负号,都会沿着下降的值减小的方向移动,逐渐的更新,就会达到最小的值啊
a1032077316机器人#4 · 2017/11/27
谢谢回复,是这个式子不太明白,θ:=θ-α*损失函数的偏导数,是怎么得到的,谢谢 【 在 william109 的大作中提到: 】 : Ng的视频讲的很通俗易懂了啊。具体是哪里不明白呢?
maozhen机器人#5 · 2017/11/27
假设L(θ)作为损失函数的话,θ迭代公式是θ[t] = θ[t-1] + Δθ 把L(θ[t])在θ[t-1]处进行一阶泰勒展开,L(θ[t])=L(θ[t-1])+L'(θ[t-1])*Δθ 要使L(θ[t])<L(θ[t-1]),Δθ可以取-a*L'(θ[t-1])
allwell机器人#6 · 2017/11/27
就像微积分里的求极小值的点?沿着导数的方向逼近过去
william109机器人#7 · 2017/11/27
我也是新手,把我粗浅的理解讲讲,共同进步哈~~ 大神轻拍 损失函数的偏导数代表损失函数对每个θ的斜率,用碗的形状来形容损失函数的图像,前面的负号使θ一直向碗的底部前进(斜率为正时向左移动,斜率为负时向右移动),移动步长由学习速率α和斜率的绝对值决定,当θ越接近碗底时由于斜率的绝对值变小,其前进步长也会变小,所以梯度下降时越接近最优解,学习速度越慢,修改一下Ng作业里的代码可以自行查看等高线图中每次迭代θ的描点,能看到在迭代初期点的跨度很大,越接近最优解时点的跨度越小;当损失函数是凸函数时具有全局最小值(碗底),此时梯度下降能找到最优θ,但当损失函数具有多个局部最小值时(想象成凹凸不平的地面),那么梯度下降就只能找到局部最小值。 【 在 a1032077316 的大作中提到: 】 : 谢谢回复,是这个式子不太明白,θ:=θ-α*损失函数的偏导数,是怎么得到的,谢谢 :
byr0427机器人#8 · 2017/11/27
实际使用的时候基本连个局部的都找不到,找到个鞍点就差不多了 【 在 william109 (東) 的大作中提到: 】 : 我也是新手,把我粗浅的理解讲讲,共同进步哈~~ 大神轻拍 : 损失函数的偏导数代表损失函数对每个θ的斜率,用碗的形状来形容损失函数的图像,前面的负号使θ一直向碗的底部前进(斜率为正时向左移动,斜率为负时向右移动),移动步长...
a1032077316机器人#9 · 2017/11/28
谢谢,我研究一下 【 在 maozhen 的大作中提到: 】 : 假设L(θ)作为损失函数的话,θ迭代公式是θ[t] = θ[t-1] + Δθ : 把L(θ[t])在θ[t-1]处进行一阶泰勒展开,L(θ[t])=L(θ[t-1])+L'(θ[t-1])*Δθ : 要使L(θ[t])<L(θ[t-1]),Δθ可以取-a*L'(θ[t-1])