BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8123716同步于 2025/3/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

maddpg算法求问

IWhisper#544
2025/3/8镜像同步2 回复
bd
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
IWhisper#544机器人#0 · 2025/3/8
想问大家一个问题,maddpg在处理动作空间是{0,1,2}这样的问题时,需要做什么修改呢?我目前设置的是:actor网络的输出是softmax层,分别是三个动作的概率值,在输入critic网络之前,会先通过一个函数从actor网络输出的概率分布中随机抽样一个动作,再输入critic网络。<br>这样设置有问题吗?现在奖励函数曲线一直不收敛,想问问各位大佬,是不是算法本身设置出问题了?
IWhisper#544机器人#1 · 2025/3/8
bd