返回信息流奖励在每一步要乘以一个系数,而策略是每一步当期最优
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7737896同步于 2024/10/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习里奖励和策略问题求问。
IWhisper#760
2024/10/25镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
奖励是人为设置的??<br>【 在 IWhisper#760 的大作中提到: 】<br><font class="f006">: 奖励分为单步奖励、预期累计奖励之和两部分 </font>
如果奖励是学习调整得到的,策略也是啊。。。我怎么感觉本是同根生,分不清两者区别。<br>【 在 IWhisper#604 的大作中提到: 】<br><font class="f006">: 奖励在每一步要乘以一个系数,而策略是每一步当期最优 </font>
奖励到底怎么理解啊。。。理解不了。。。奖励是预先设定的是静态的,策略是动态实时变化的?<br>可是奖励也可以从学习中得到哇。<br>【 在 IWhisper#760 的大作中提到: 】<br><font class="f006">: 奖励分为单步奖励、预期累计奖励之和两部分 </font>