返回信息流和我做的差不多 我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #8122650同步于 2025/3/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
求问大佬们强化学习reward一直不提高可能是啥问题呢
IWhisper#633
2025/3/7镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
和我做的差不多 我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none">
哥你的怎么说,效果好吗<br>【 在 IWhisper#627 的大作中提到: 】<br><font class="f006">: 和我做的差不多 我是mappo<img src="/img/ubb/em/9.gif" alt="em9" style="display:inline;border-style:none"> </font>
maddpg原理是针对连续动作的呢,对于离散动作,你是怎么处理的呢?<br>【 在 IWhisper#633 的大作中提到: 】<br><font class="f006">: 是离散的 </font>
就是网络输出各个动作的logit,然后选择最大的那个<br>【 在 IWhisper#496 的大作中提到: 】<br><font class="f006">: maddpg原理是针对连续动作的呢,对于离散动作,你是怎么处理的呢? </font>