返回信息流以下问题,求助大佬!!!
1.Q learning是否能解决动态网络问题?
2.如果能,怎么解决?
例如:在通信网络中,有不同业务请求 r(s,d,t)有不同的初始地,目的地,业务时长,如何通过Q learning训练呢?因为前面的业务在选完路径,频谱后,针对后面的业务,都是不同的环境,感觉更新后的Q表怪怪的。
求请教,如何更新Q 表
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33523同步于 2019/3/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
Q learning问题求解!!!
lemonmeng
2019/3/22镜像同步2 回复
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
看你action到reward的映射,action空间应该是连续的,想用q-learning做的话需要将动作离散化;如果离散化导致精度损失,可以考虑policy-gradient或者ddpg之类的算法