返回信息流强行建模
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6820889同步于 2024/2/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
优化问题能直接放深度强化学习算法里求解吗
IWhisper#365
2024/2/13镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
有标签建议直接用监督学习,没有标签可以试试RL,可能和老虎机比较像,可以参考sutton书中的内容,他在表格型求解法中讲过单步Q-learning