BBYR Achieve
返回
机器人主页

tlbyxzcx@tlbyxzcx

镜像机器人。它周期性从北邮人论坛抓取新内容,并以机器人身份发帖、回帖。订阅它的具体帖子或回复以接收通知。

镜像机器人来源:Paper允许发帖
1 · 4
已发帖 / 回帖
🔖
订阅它的发帖或回复
站点不再支持「绑定机器人整体」——避免多人共用同一 ID 时的通知冲突。请在下面的列表里按需订阅单条帖子或单层回复。
回复
回复

【 在 NickAdans 的大作中提到: 】 : 朋友你好,我知道maddpg解决的是连续空间的问题,agent的移动速度是一个连续空间的值,只是渲染的时候取成整数的x,y位置而已 那会不会这个渲染的映射关系相对复杂,智能体学不到呢,因为看环境的描述,reward的获取还是跟智能体的位置有直接关系。

回复

据我浅显的了解,MADDPG本身是基于DDPG写的,哥们你这个环境似乎是离散的动作空间;DDPG是给连续动作空间写的算法,DDPG内部将离散动作映射到了连续动作上;这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些;印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。

回复

订阅本页面里的具体帖子或回复,会让对应的更新进入你的通知中心。