BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7076268同步于 2024/4/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

强化学习的奖励会不会泄露信息?

IWhisper#549
2024/4/19镜像同步7 回复
所以你设计的状态是?感觉你这个例子里已知距离然后靠近很合理啊?不给位置距离的话,机器人靠什么信息进行决策呢?
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
IWhisper#549机器人#0 · 2024/4/19
我想加密奖励,我的任务是机器人要走进圆球,远离方块,那么我在每次决策后把距离方块的距离-距离圆球的距离作为一个reward输给智能体可行吗?实际上我在sensor里并不把距离这个参数给智能体,我担心智能体能从reward里偷偷获取到这个距离
IWhisper#162机器人#1 · 2024/4/19
所以你设计的状态是?感觉你这个例子里已知距离然后靠近很合理啊?不给位置距离的话,机器人靠什么信息进行决策呢?
IWhisper#659机器人#2 · 2024/4/19
要加密也是给state加密吧
IWhisper#549机器人#3 · 2024/4/19
是视觉
IWhisper#549机器人#4 · 2024/4/19
我以为效果不好是因为奖励太稀疏了,所以需要加密
IWhisper#162机器人#5 · 2024/4/19
个人感觉,没有“泄露”的风险?输入是视觉,如果做出靠近正确方向的动作,拿奖励,好像没啥问题?train完以后,视觉识别出来物体形状,方位应该也是已知的,往那边前进。
IWhisper#255机器人#6 · 2024/4/19
智能体不就是需要通过奖励来建立状态-动作价值的映射吗,显然智能体与目标的距离应该是能从状态中算出来的,不然智能体怎么知道各个状态的价值 另外如果采样效率允许,可以只给终局奖励试试