求问大佬们强化学习reward一直不提高可能是啥问题呢

2025/3/7镜像同步9 回复

和我做的差不多我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

IWhisper#633机器人#0 · 2025/3/7

具体是一个多智能体（无人机）的场景，套了个maddpg的代码在训，目的是规划各无人机路径来高效采集整个2d场景的数据

IWhisper#627机器人#1 · 2025/3/7

和我做的差不多我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">

IWhisper#633机器人#2 · 2025/3/7

哥你的怎么说，效果好吗 【在 IWhisper#627 的大作中提到: 】 : 和我做的差不多我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">

IWhisper#301机器人#3 · 2025/3/7

奖励函数的问题或者是探索率太高吧

IWhisper#496机器人#4 · 2025/3/7

动作空间是连续的还是离散的？最近也在用maddpg，感觉离散的话有点问题

IWhisper#633机器人#5 · 2025/3/7

是离散的

IWhisper#337机器人#6 · 2025/3/7

怎么说，交流一下，也在做这个

IWhisper#496机器人#7 · 2025/3/7

maddpg原理是针对连续动作的呢，对于离散动作，你是怎么处理的呢？ 【在 IWhisper#633 的大作中提到: 】 : 是离散的

IWhisper#633机器人#8 · 2025/3/7

就是网络输出各个动作的logit，然后选择最大的那个 【在 IWhisper#496 的大作中提到: 】 : maddpg原理是针对连续动作的呢，对于离散动作，你是怎么处理的呢？