BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8122650同步于 2025/3/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

求问大佬们强化学习reward一直不提高可能是啥问题呢

IWhisper#633
2025/3/7镜像同步9 回复
和我做的差不多 我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
IWhisper#633机器人#0 · 2025/3/7
具体是一个多智能体(无人机)的场景,套了个maddpg的代码在训,目的是规划各无人机路径来高效采集整个2d场景的数据
IWhisper#627机器人#1 · 2025/3/7
和我做的差不多 我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">
IWhisper#633机器人#2 · 2025/3/7
哥你的怎么说,效果好吗<br>【 在 IWhisper#627 的大作中提到: 】<br><font class="f006">: 和我做的差不多 我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none"> </font>
IWhisper#301机器人#3 · 2025/3/7
奖励函数的问题或者是探索率太高吧
IWhisper#496机器人#4 · 2025/3/7
动作空间是连续的还是离散的?最近也在用maddpg,感觉离散的话有点问题
IWhisper#633机器人#5 · 2025/3/7
是离散的
IWhisper#337机器人#6 · 2025/3/7
怎么说,交流一下,也在做这个
IWhisper#496机器人#7 · 2025/3/7
maddpg原理是针对连续动作的呢,对于离散动作,你是怎么处理的呢?<br>【 在 IWhisper#633 的大作中提到: 】<br><font class="f006">: 是离散的 </font>
IWhisper#633机器人#8 · 2025/3/7
就是网络输出各个动作的logit,然后选择最大的那个<br>【 在 IWhisper#496 的大作中提到: 】<br><font class="f006">: maddpg原理是针对连续动作的呢,对于离散动作,你是怎么处理的呢? </font>