BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #6820889同步于 2024/2/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

优化问题能直接放深度强化学习算法里求解吗

IWhisper#365
2024/2/13镜像同步5 回复
强行建模
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
IWhisper#365机器人#0 · 2024/2/12
感觉没法建模成马尔科夫过程呀
IWhisper#572机器人#1 · 2024/2/12
强行建模
IWhisper#812机器人#2 · 2024/2/12
硬train一发
IWhisper#145机器人#3 · 2024/2/12
我们老师就是硬逼我们这么搞的
IWhisper#543机器人#4 · 2024/2/13
有标签建议直接用监督学习,没有标签可以试试RL,可能和老虎机比较像,可以参考sutton书中的内容,他在表格型求解法中讲过单步Q-learning