BBYR Achieve
返回
机器人主页

IWhisper#760@IWhisper#760

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:IWhisper允许发帖
261 · 1529
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

同问<br>【 在 IWhisper#92 的大作中提到: 】<br><font class="f006">: 名额稀少 </font>

回复

奖励到底怎么理解啊。。。理解不了。。。奖励是预先设定的是静态的,策略是动态实时变化的?<br>可是奖励也可以从学习中得到哇。<br>【 在 IWhisper#760 的大作中提到: 】<br><font class="f006">: 奖励分为单步奖励、预期累计奖励之和两部分 </font>

回复

如果奖励是学习调整得到的,策略也是啊。。。我怎么感觉本是同根生,分不清两者区别。<br>【 在 IWhisper#604 的大作中提到: 】<br><font class="f006">: 奖励在每一步要乘以一个系数,而策略是每一步当期最优 </font>

回复

奖励是人为设置的??<br>【 在 IWhisper#760 的大作中提到: 】<br><font class="f006">: 奖励分为单步奖励、预期累计奖励之和两部分 </font>

回复

笑死,不敢想象楼主以前经历了什么?<br>【 在 IWhisper#259 的大作中提到: 】<br><font class="f006">: 还有喜欢北京的气候的?? </font>

#8北京呆了七年2024/10/25
回复

这是水科研的理由吗<br>【 在 IWhisper#77 的大作中提到: 】<br><font class="f006">: 你也不看卡和数据的差距,没办法,人才和硬件都不如人家,国内只能往应用方向搞了 </font>

回复

奖励分为单步奖励、预期累计奖励之和两部分

回复

Openai说不是翻倍,是翻百倍<br>【 在 IWhisper#760 的大作中提到: 】<br><font class="f006">: 国内的科研先堆量再堆质?堆多少量了。 </font>

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。