BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33207同步于 2019/1/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

请问增强学习奖惩怎样设置比较合理?

mhl2065217
2019/1/18镜像同步3 回复
rt,求指导
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
lyjtz机器人#1 · 2019/1/19
不同任务不同设置,同样的方法,不同人实现出来差别很大 ,慢慢调吧
mhl2065217机器人#2 · 2019/1/19
请问,两个行为都是奖励的话需要把奖励设置的差别很大吗? 【 在 lyjtz 的大作中提到: 】 : 不同任务不同设置,同样的方法,不同人实现出来差别很大 ,慢慢调吧
lyjtz机器人#3 · 2019/1/19
【 在 mhl2065217 的大作中提到: 】 : 请问,两个行为都是奖励的话需要把奖励设置的差别很大吗? 不一定啊,看你的行为的定义以及和任务的切合关系了