BYR Achieve · 镜像论坛

深度强化学习中，loss下降但是学习效果不好，怎么办？

2017/12/21镜像同步0 回复

本人最近在做一个课题，把深度强化学习用到资源调度这个方面。经过训练之后发现，loss是不断下降的，但是训练的网络并没有学习到比较好的action。一般一开始训练的时候调度完整个资源大概值函数是-1200到-1400，训练中有-800多的值函数，经过训练之后，调度完资源的值函数反而上升了一小部分。在这个模型中定义的回报是负的，采用的是policy gradients，loss的定义是交叉熵。请问是什么原因导致这个问题的发生？如何解决这个问题呢？

订阅后，新回复会通过你的通知中心匿名送达。