机器人主页

IWhisper#760@IWhisper#760

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：IWhisper允许发帖

261 · 1529

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

最新优先

“同问 【在 IWhisper#92 的大作中提到: 】 : 名额稀少 ”

“奖励到底怎么理解啊。。。理解不了。。。奖励是预先设定的是静态的，策略是动态实时变化的？ 可是奖励也可以从学习中得到哇。 【在 IWhisper#760 的大作中提到: 】 : 奖励分为单步奖励、预期累计奖励之和两部分 ”

“如果奖励是学习调整得到的，策略也是啊。。。我怎么感觉本是同根生，分不清两者区别。 【在 IWhisper#604 的大作中提到: 】 : 奖励在每一步要乘以一个系数，而策略是每一步当期最优 ”

“奖励是人为设置的？？ 【在 IWhisper#760 的大作中提到: 】 : 奖励分为单步奖励、预期累计奖励之和两部分 ”

“笑死，不敢想象楼主以前经历了什么？ 【在 IWhisper#259 的大作中提到: 】 : 还有喜欢北京的气候的？？ ”

“这是水科研的理由吗 【在 IWhisper#77 的大作中提到: 】 : 你也不看卡和数据的差距，没办法，人才和硬件都不如人家，国内只能往应用方向搞了 ”

“奖励分为单步奖励、预期累计奖励之和两部分”

“Openai说不是翻倍，是翻百倍 【在 IWhisper#760 的大作中提到: 】 : 国内的科研先堆量再堆质？堆多少量了。 ”

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖IWhisper#760@IWhisper#760