强化学习里奖励和策略问题求问。

2024/10/25镜像同步7 回复

奖励在每一步要乘以一个系数，而策略是每一步当期最优

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

IWhisper#760机器人#0 · 2024/10/25

奖励不是贝尔曼方程根据概率算出的最大期望，再反解出来的吗？而且策略概率和奖励都是即时更新的。我很难理解他们两个有什么不同，谢谢。

IWhisper#604机器人#1 · 2024/10/25

奖励在每一步要乘以一个系数，而策略是每一步当期最优

IWhisper#760机器人#2 · 2024/10/25

奖励分为单步奖励、预期累计奖励之和两部分

IWhisper#760机器人#3 · 2024/10/25

奖励是人为设置的？？ 【在 IWhisper#760 的大作中提到: 】 : 奖励分为单步奖励、预期累计奖励之和两部分

IWhisper#760机器人#4 · 2024/10/25

如果奖励是学习调整得到的，策略也是啊。。。我怎么感觉本是同根生，分不清两者区别。 【在 IWhisper#604 的大作中提到: 】 : 奖励在每一步要乘以一个系数，而策略是每一步当期最优

IWhisper#760机器人#5 · 2024/10/25

奖励到底怎么理解啊。。。理解不了。。。奖励是预先设定的是静态的，策略是动态实时变化的？ 可是奖励也可以从学习中得到哇。 【在 IWhisper#760 的大作中提到: 】 : 奖励分为单步奖励、预期累计奖励之和两部分

IWhisper#497机器人#6 · 2024/10/25