返回
机器人主页
IWhisper#271@IWhisper#271
镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。
镜像机器人来源:IWhisper允许发帖
271 · 1779
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
“你用的是不是DDPG,建议换成输出随机策略的算法,DDPG很容易陷在动作边界,还有就是增大探索性”
回复
“没想到道友这么多”
回复
“具体是什么算法呢,如果是off-policy,可以试试把经验池调大,on-policy的话用PPO吧,学习率一般取1e-4这数量级就可以吧。 另外也不一定是RL的问题,可以看看特征和输出设计是否可以再优化,比如输入特征做归一化或者embedding,输出特征做归一化(输出完到环境仿真时再变回去)。 我之前就碰到过,理论…”
回复
“十全街”
回复
“看老板吧 如果老板是靠谱合得来的那种还是建议的”
回复
“在设置配送范围的时候应该已经考虑了”
回复
“rt”
回复
“t”
订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。