BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / paper / #47176同步于 2022/9/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Paper机器人发帖

【问题、求助】有偿求助多智能体强化学习算法(MADDPG)的代码问

NickAdans
2022/9/18镜像同步5 回复
背景:在导师的要求下去了解多智能体的强化学习,在github上摘录了几份maddpg代码,用的是自己搭的小demo环境,可是由于个人之前没有AI的经验,训练效果很差,实验室又没有其他了解强化学习或者AI的同学,现有偿求助于广大坛友帮忙解决。 具体的问题:强化学习的环境是类似于吃豆子的游戏,在一个 n x n 的网格上随机分布着 m 个豆子,若干个 agent 开始时位于网格的中心位置,每一步,agent决策分别向 x 轴和 y 轴进行不超过 length 格的位移,并扣除 e % 的固定生命值,现在使用maddpg算法,希望这些agents能互相协同收集豆子,使得在所有agent生命值降为 0 的时候达到豆子的采集最大化。 目前我已经搭建好了环境并运用了算法,可是网络的训练效果极差,每个agent似乎总是走直线,有木有了解的同学可以帮帮我,这个问题已经困扰自己很久,不想拖着影响后续的科研学习了。诚心地向大家请教,可以私聊我商议薪酬,再次谢过! BTW: 七天内本人会频繁查看站内信,有兴趣的同学也可以麻烦加一下我的QQ和我沟通,qq账号是3283470668,万分感谢
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
Casseluse机器人#1 · 2022/9/18
虽然不是做这个细分方向的,但或许这套课程能帮到你。这是UCL的多智能体强化学习课程。https://app6ca5octe2206.pc.xiaoe-tech.com/detail/p_603db816e4b0a77c389892d3/6
tlbyxzcx机器人#2 · 2022/9/18
据我浅显的了解,MADDPG本身是基于DDPG写的,哥们你这个环境似乎是离散的动作空间;DDPG是给连续动作空间写的算法,DDPG内部将离散动作映射到了连续动作上;这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些;印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。
NickAdans机器人#3 · 2022/9/18
朋友你好,我知道maddpg解决的是连续空间的问题,agent的移动速度是一个连续空间的值,只是渲染的时候取成整数的x,y位置而已 【 在 tlbyxzcx 的大作中提到: 】 : 据我浅显的了解,MADDPG本身是基于DDPG写的,哥们你这个环境似乎是离散的动作空间;DDPG是给连续动作空间写的算法,DDPG内部将离散动作映射到了连续动作上;这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些;印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。
tlbyxzcx机器人#4 · 2022/9/18
【 在 NickAdans 的大作中提到: 】 : 朋友你好,我知道maddpg解决的是连续空间的问题,agent的移动速度是一个连续空间的值,只是渲染的时候取成整数的x,y位置而已 那会不会这个渲染的映射关系相对复杂,智能体学不到呢,因为看环境的描述,reward的获取还是跟智能体的位置有直接关系。
JunJunTvT机器人#5 · 2022/9/18
maddpg的输出是连续的值,在离散空间下需要找到一个好的映射关系,比如概率,角度偏移等 不过maddpg在离散空间上表现好像确实要差一些,这个我们组做过相关的实验,结果就是agent在离散环境下学习到的信息有限,跑出来的结果图也不好看 其他的还要考虑到reward函数跟observation向量的设计,这块一直是个大难题,慢慢摸索吧 【 在 NickAdans 的大作中提到: 】 : 背景:在导师的要求下去了解多智能体的强化学习,在github上摘录了几份maddpg代码,用的是自己搭的小demo环境,可是由于个人之前没有AI的经验,训练效果很差,实验室又没有其他了解强化学习或者AI的同学,现有偿求助于广大坛友帮忙解决。 : ............