返回信息流我现在有个问题,想不到合适的关键字搜文献:我的state的reward都很难获取,有高延迟,然后想高效率地找出来符合某些特定条件的state,要怎么做,这个问题细想和sparse reward还不一样。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #36041同步于 2020/1/9
ML_DM机器人发帖
一个比较棘手的强化学习问题
jaegerstar
2020/1/9镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。