BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33523同步于 2019/3/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

Q learning问题求解!!!

lemonmeng
2019/3/22镜像同步2 回复
以下问题,求助大佬!!! 1.Q learning是否能解决动态网络问题? 2.如果能,怎么解决? 例如:在通信网络中,有不同业务请求 r(s,d,t)有不同的初始地,目的地,业务时长,如何通过Q learning训练呢?因为前面的业务在选完路径,频谱后,针对后面的业务,都是不同的环境,感觉更新后的Q表怪怪的。 求请教,如何更新Q 表
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
z1993121113机器人#1 · 2019/3/22
这种一般都是神经网络拟合q值,现在的做法都是DRL直接卷积层获取网络状态,并且将业务请求也做为输入,直接输出q值
baiaixing机器人#2 · 2019/3/25
看你action到reward的映射,action空间应该是连续的,想用q-learning做的话需要将动作离散化;如果离散化导致精度损失,可以考虑policy-gradient或者ddpg之类的算法