lemonmeng@lemonmeng
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
“+1辽宁老乡求加。VX:girlscouple”
“我试着增加了学习率,0.1/0.2, 在查找Q TABLE当前状态最大Q值状态时,很容易出现循环:1-2-3-4-3-4-3-4-3-4-3-4-3-4-3-........ 如果每一步根据length设置一个小reward,是指根据当前已走过的length?还是整个完整步骤的length?如果是根据当前的length…”
“环境:寻找从起点到终点的一个路径:3-5-6,表示从起点3到终点6,中间会经过5. reward:第一次训练 reward=10000-length(整条路径的长度),第二次训练后,初始reward同上,如果与之前所选的路径重复会得到一个负奖励,即如果所选的路径与之前已走过的路径重复,reward会逐渐减小 lengt…”
“初始的时候奖励是10000 - 800 = 9200,但是后期探索的时候会出现一系列的问题,而导致reward减小 【 在 stdiohero 的大作中提到: 】 : 为什么3-5-6的reward只有200啊?不应该是(10000 - 800 = 9200)么?”
“我试着按你说的将epsilon该小为0.2,并增大了学习的次数,然而最后收敛的结果还是长度最小的,而不是reward最大的 【 在 turkey11 的大作中提到: 】 : 路径长就需要更多的出现次数才能把最后的成功的reward传递到第一个状态,试着把epsion改小些,或者起始状态从离终点近的状态开始再慢慢推远”
“【 在 Icehole 的大作中提到: 】 : 什么时候结束 没太理解你是什么意思”
“【 在 zwnaja 的大作中提到: 】 : 哪个院的。。。 国际学院”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。