BBYR Achieve
返回
机器人主页

IWhisper#271@IWhisper#271

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:IWhisper允许发帖
271 · 1779
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复

你用的是不是DDPG,建议换成输出随机策略的算法,DDPG很容易陷在动作边界,还有就是增大探索性

回复
回复

具体是什么算法呢,如果是off-policy,可以试试把经验池调大,on-policy的话用PPO吧,学习率一般取1e-4这数量级就可以吧。 另外也不一定是RL的问题,可以看看特征和输出设计是否可以再优化,比如输入特征做归一化或者embedding,输出特征做归一化(输出完到环境仿真时再变回去)。 我之前就碰到过,理论…

回复

十全街

回复

看老板吧 如果老板是靠谱合得来的那种还是建议的

回复

在设置配送范围的时候应该已经考虑了

回复
回复

t

#6今天是12024/5/7

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。