返回信息流所以你设计的状态是?感觉你这个例子里已知距离然后靠近很合理啊?不给位置距离的话,机器人靠什么信息进行决策呢?
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7076268同步于 2024/4/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习的奖励会不会泄露信息?
IWhisper#549
2024/4/19镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
我想加密奖励,我的任务是机器人要走进圆球,远离方块,那么我在每次决策后把距离方块的距离-距离圆球的距离作为一个reward输给智能体可行吗?实际上我在sensor里并不把距离这个参数给智能体,我担心智能体能从reward里偷偷获取到这个距离
个人感觉,没有“泄露”的风险?输入是视觉,如果做出靠近正确方向的动作,拿奖励,好像没啥问题?train完以后,视觉识别出来物体形状,方位应该也是已知的,往那边前进。
智能体不就是需要通过奖励来建立状态-动作价值的映射吗,显然智能体与目标的距离应该是能从状态中算出来的,不然智能体怎么知道各个状态的价值
另外如果采样效率允许,可以只给终局奖励试试