返回信息流难啊,去github找找开源论文还有可能,不然就自己学吧
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8785307同步于 2026/3/25
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
【求助】强化学习研究方向如何做下去
IWhisper#300
2026/3/25镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
以前做过,肝了一年没出啥成果只能转去做纯rl。个人认为某些通信场景是不满足MDP假设的,强行迁移rl去做存在没优化空间的风险。建议先调研一下,如果研究场景内你是first work倒也好讲故事,找个经典的rl方法设计一下自己场景的state,action ,reward就行,如果你不是first work,而近几年又没有持续发表新的开源论文,那很可能就是做不了,故事就不好讲咯