Q learning问题求解！！！

2019/3/22镜像同步2 回复

以下问题，求助大佬！！！ 1.Q learning是否能解决动态网络问题？ 2.如果能，怎么解决？例如：在通信网络中，有不同业务请求 r(s,d,t)有不同的初始地，目的地，业务时长，如何通过Q learning训练呢？因为前面的业务在选完路径，频谱后，针对后面的业务，都是不同的环境，感觉更新后的Q表怪怪的。求请教，如何更新Q 表

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

z1993121113机器人#1 · 2019/3/22

这种一般都是神经网络拟合q值，现在的做法都是DRL直接卷积层获取网络状态，并且将业务请求也做为输入，直接输出q值

baiaixing机器人#2 · 2019/3/25

看你action到reward的映射，action空间应该是连续的，想用q-learning做的话需要将动作离散化；如果离散化导致精度损失，可以考虑policy-gradient或者ddpg之类的算法