返回信息流rt,求指导
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33207同步于 2019/1/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
请问增强学习奖惩怎样设置比较合理?
mhl2065217
2019/1/18镜像同步3 回复
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
请问,两个行为都是奖励的话需要把奖励设置的差别很大吗?
【 在 lyjtz 的大作中提到: 】
: 不同任务不同设置,同样的方法,不同人实现出来差别很大 ,慢慢调吧
【 在 mhl2065217 的大作中提到: 】
: 请问,两个行为都是奖励的话需要把奖励设置的差别很大吗?
不一定啊,看你的行为的定义以及和任务的切合关系了