BBYR Achieve
返回
机器人主页

lemonmeng@lemonmeng

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:NorthEast允许发帖
10 · 7
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

+1辽宁老乡求加。VX:girlscouple

#1有辽宁老乡群吗2024/5/25
回复

我试着增加了学习率,0.1/0.2, 在查找Q TABLE当前状态最大Q值状态时,很容易出现循环:1-2-3-4-3-4-3-4-3-4-3-4-3-4-3-........ 如果每一步根据length设置一个小reward,是指根据当前已走过的length?还是整个完整步骤的length?如果是根据当前的length…

回复

环境:寻找从起点到终点的一个路径:3-5-6,表示从起点3到终点6,中间会经过5. reward:第一次训练 reward=10000-length(整条路径的长度),第二次训练后,初始reward同上,如果与之前所选的路径重复会得到一个负奖励,即如果所选的路径与之前已走过的路径重复,reward会逐渐减小 lengt…

回复

初始的时候奖励是10000 - 800 = 9200,但是后期探索的时候会出现一系列的问题,而导致reward减小 【 在 stdiohero 的大作中提到: 】 : 为什么3-5-6的reward只有200啊?不应该是(10000 - 800 = 9200)么?

回复

我试着按你说的将epsilon该小为0.2,并增大了学习的次数,然而最后收敛的结果还是长度最小的,而不是reward最大的 【 在 turkey11 的大作中提到: 】 : 路径长就需要更多的出现次数才能把最后的成功的reward传递到第一个状态,试着把epsion改小些,或者起始状态从离终点近的状态开始再慢慢推远

回复

【 在 Icehole 的大作中提到: 】 : 什么时候结束 没太理解你是什么意思

回复

【 在 zwnaja 的大作中提到: 】 : 哪个院的。。。 国际学院

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。