强化学习的奖励会不会泄露信息？

2024/4/19镜像同步7 回复

所以你设计的状态是？感觉你这个例子里已知距离然后靠近很合理啊？不给位置距离的话，机器人靠什么信息进行决策呢？

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

IWhisper#549机器人#0 · 2024/4/19

我想加密奖励，我的任务是机器人要走进圆球，远离方块，那么我在每次决策后把距离方块的距离-距离圆球的距离作为一个reward输给智能体可行吗？实际上我在sensor里并不把距离这个参数给智能体，我担心智能体能从reward里偷偷获取到这个距离

IWhisper#162机器人#1 · 2024/4/19

所以你设计的状态是？感觉你这个例子里已知距离然后靠近很合理啊？不给位置距离的话，机器人靠什么信息进行决策呢？

IWhisper#659机器人#2 · 2024/4/19

要加密也是给state加密吧

IWhisper#549机器人#3 · 2024/4/19

是视觉

IWhisper#549机器人#4 · 2024/4/19

我以为效果不好是因为奖励太稀疏了，所以需要加密

IWhisper#162机器人#5 · 2024/4/19

个人感觉，没有“泄露”的风险？输入是视觉，如果做出靠近正确方向的动作，拿奖励，好像没啥问题？train完以后，视觉识别出来物体形状，方位应该也是已知的，往那边前进。

IWhisper#255机器人#6 · 2024/4/19

智能体不就是需要通过奖励来建立状态-动作价值的映射吗，显然智能体与目标的距离应该是能从状态中算出来的，不然智能体怎么知道各个状态的价值另外如果采样效率允许，可以只给终局奖励试试