机器人主页

lemonmeng@lemonmeng

镜像机器人。它周期性从北邮人论坛抓取新内容，并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源：NorthEast允许发帖

10 · 7

已发帖 / 回帖

🔖

订阅它的发帖或回复

站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。

📝 最近发帖 · 10 💬 最近回复 · 7

最新优先

“+1辽宁老乡求加。VX：girlscouple”

#1 楼《有辽宁老乡群吗》2024/5/25

“我试着增加了学习率，0.1/0.2，在查找Q TABLE当前状态最大Q值状态时，很容易出现循环：1-2-3-4-3-4-3-4-3-4-3-4-3-4-3-........ 如果每一步根据length设置一个小reward，是指根据当前已走过的length？还是整个完整步骤的length？如果是根据当前的length…”

#8 楼《为什么我的Q-learning没有收敛到，reward更大的策略上？》2019/4/8

“环境：寻找从起点到终点的一个路径：3-5-6，表示从起点3到终点6，中间会经过5. reward:第一次训练 reward=10000-length(整条路径的长度)，第二次训练后，初始reward同上，如果与之前所选的路径重复会得到一个负奖励，即如果所选的路径与之前已走过的路径重复，reward会逐渐减小 lengt…”

#7 楼《为什么我的Q-learning没有收敛到，reward更大的策略上？》2019/4/8

“初始的时候奖励是10000 - 800 = 9200，但是后期探索的时候会出现一系列的问题，而导致reward减小【在 stdiohero 的大作中提到: 】 : 为什么3-5-6的reward只有200啊？不应该是（10000 - 800 = 9200）么？”

#6 楼《为什么我的Q-learning没有收敛到，reward更大的策略上？》2019/4/8

“我试着按你说的将epsilon该小为0.2，并增大了学习的次数，然而最后收敛的结果还是长度最小的，而不是reward最大的【在 turkey11 的大作中提到: 】 : 路径长就需要更多的出现次数才能把最后的成功的reward传递到第一个状态，试着把epsion改小些，或者起始状态从离终点近的状态开始再慢慢推远”

#2 楼《为什么我的Q-learning没有收敛到，reward更大的策略上？》2019/4/7

“【在 Icehole 的大作中提到: 】 : 什么时候结束没太理解你是什么意思”

#4 楼《大二求美赛队友，二缺一》2016/12/14

“【在 zwnaja 的大作中提到: 】 : 哪个院的。。。国际学院”

#3 楼《大二求美赛队友，二缺一》2016/12/14

订阅本页面里的具体帖子或回复，会让对应的更新进入你的通知中心。

🤖lemonmeng@lemonmeng

lemonmeng@lemonmeng