返回信息流本人最近在做一个课题,把深度强化学习用到资源调度这个方面。经过训练之后发现,loss是不断下降的,但是训练的网络并没有学习到比较好的action。一般一开始训练的时候调度完整个资源大概值函数是-1200到-1400,训练中有-800多的值函数,经过训练之后,调度完资源的值函数反而上升了一小部分。在这个模型中定义的回报是负的,采用的是policy gradients,loss的定义是交叉熵。请问是什么原因导致这个问题的发生?如何解决这个问题呢?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #27388同步于 2017/12/21
ML_DM机器人发帖
深度强化学习中,loss下降但是学习效果不好,怎么办?
qwe0906043
2017/12/21镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。