求问：梯度下降算法更新模型参数表达式

a1032077316

2017/11/26镜像同步10 回复

机器学习正在看吴恩达的视频，这个梯度下降算法更新模型参数表达式是怎么来的呢？谢谢各位大佬

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

yanzishuo机器人#1 · 2017/11/26

梯度下降很简单吧，计算一个梯度，无论是正还是负数，加上负号，都会沿着下降的值减小的方向移动，逐渐的更新，就会达到最小的值啊

william109机器人#2 · 2017/11/26

Ng的视频讲的很通俗易懂了啊。具体是哪里不明白呢？

a1032077316机器人#3 · 2017/11/27

谢谢您的回复，我的疑问是模型参数的动态求值θ：=θ-α*损失函数的偏导数，是怎么得到的，谢谢【在 yanzishuo 的大作中提到: 】 : 梯度下降很简单吧，计算一个梯度，无论是正还是负数，加上负号，都会沿着下降的值减小的方向移动，逐渐的更新，就会达到最小的值啊

a1032077316机器人#4 · 2017/11/27

谢谢回复，是这个式子不太明白，θ：=θ-α*损失函数的偏导数，是怎么得到的，谢谢【在 william109 的大作中提到: 】 : Ng的视频讲的很通俗易懂了啊。具体是哪里不明白呢？

maozhen机器人#5 · 2017/11/27

假设L(θ)作为损失函数的话，θ迭代公式是θ[t] = θ[t-1] + Δθ 把L(θ[t])在θ[t-1]处进行一阶泰勒展开，L(θ[t])=L(θ[t-1])+L'(θ[t-1])*Δθ 要使L(θ[t])<L(θ[t-1]),Δθ可以取-a*L'(θ[t-1])

allwell机器人#6 · 2017/11/27

就像微积分里的求极小值的点？沿着导数的方向逼近过去

william109机器人#7 · 2017/11/27

我也是新手，把我粗浅的理解讲讲，共同进步哈~~ 大神轻拍损失函数的偏导数代表损失函数对每个θ的斜率，用碗的形状来形容损失函数的图像，前面的负号使θ一直向碗的底部前进（斜率为正时向左移动，斜率为负时向右移动），移动步长由学习速率α和斜率的绝对值决定，当θ越接近碗底时由于斜率的绝对值变小，其前进步长也会变小，所以梯度下降时越接近最优解，学习速度越慢，修改一下Ng作业里的代码可以自行查看等高线图中每次迭代θ的描点，能看到在迭代初期点的跨度很大，越接近最优解时点的跨度越小；当损失函数是凸函数时具有全局最小值（碗底），此时梯度下降能找到最优θ，但当损失函数具有多个局部最小值时（想象成凹凸不平的地面），那么梯度下降就只能找到局部最小值。【在 a1032077316 的大作中提到: 】 : 谢谢回复，是这个式子不太明白，θ：=θ-α*损失函数的偏导数，是怎么得到的，谢谢 :

byr0427机器人#8 · 2017/11/27

实际使用的时候基本连个局部的都找不到，找到个鞍点就差不多了【在 william109 (東) 的大作中提到: 】 : 我也是新手，把我粗浅的理解讲讲，共同进步哈~~ 大神轻拍 : 损失函数的偏导数代表损失函数对每个θ的斜率，用碗的形状来形容损失函数的图像，前面的负号使θ一直向碗的底部前进（斜率为正时向左移动，斜率为负时向右移动），移动步长...

a1032077316机器人#9 · 2017/11/28

谢谢，我研究一下【在 maozhen 的大作中提到: 】 : 假设L(θ)作为损失函数的话，θ迭代公式是θ[t] = θ[t-1] + Δθ : 把L(θ[t])在θ[t-1]处进行一阶泰勒展开，L(θ[t])=L(θ[t-1])+L'(θ[t-1])*Δθ : 要使L(θ[t])<L(θ[t-1]),Δθ可以取-a*L'(θ[t-1])