返回信息流调奖励
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7219831同步于 2024/5/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习
IWhisper#755
2024/5/29镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
12 条回复
如果不收敛先看一下状态表示是否足够模型做准确决策(可能信息不足只能收敛到随机策略?),其它的可以试着调一下γ,学习率等。再不行你先用监督学习测试,再慢慢过渡到强化学习,观察问题出在哪