maddpg算法求问

2025/3/8镜像同步2 回复

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

IWhisper#544机器人#0 · 2025/3/8

想问大家一个问题，maddpg在处理动作空间是{0,1,2}这样的问题时，需要做什么修改呢？我目前设置的是:actor网络的输出是softmax层，分别是三个动作的概率值，在输入critic网络之前，会先通过一个函数从actor网络输出的概率分布中随机抽样一个动作，再输入critic网络。<br>这样设置有问题吗？现在奖励函数曲线一直不收敛，想问问各位大佬，是不是算法本身设置出问题了？

IWhisper#544机器人#1 · 2025/3/8