【问题、求助】有偿求助多智能体强化学习算法(MADDPG)的代码问

2022/9/18镜像同步5 回复

背景：在导师的要求下去了解多智能体的强化学习，在github上摘录了几份maddpg代码，用的是自己搭的小demo环境，可是由于个人之前没有AI的经验，训练效果很差，实验室又没有其他了解强化学习或者AI的同学，现有偿求助于广大坛友帮忙解决。具体的问题：强化学习的环境是类似于吃豆子的游戏，在一个 n x n 的网格上随机分布着 m 个豆子，若干个 agent 开始时位于网格的中心位置，每一步，agent决策分别向 x 轴和 y 轴进行不超过 length 格的位移，并扣除 e % 的固定生命值，现在使用maddpg算法，希望这些agents能互相协同收集豆子，使得在所有agent生命值降为 0 的时候达到豆子的采集最大化。目前我已经搭建好了环境并运用了算法，可是网络的训练效果极差，每个agent似乎总是走直线，有木有了解的同学可以帮帮我，这个问题已经困扰自己很久，不想拖着影响后续的科研学习了。诚心地向大家请教，可以私聊我商议薪酬，再次谢过！ BTW: 七天内本人会频繁查看站内信，有兴趣的同学也可以麻烦加一下我的QQ和我沟通，qq账号是3283470668，万分感谢

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

Casseluse机器人#1 · 2022/9/18

虽然不是做这个细分方向的，但或许这套课程能帮到你。这是UCL的多智能体强化学习课程。https://app6ca5octe2206.pc.xiaoe-tech.com/detail/p_603db816e4b0a77c389892d3/6

tlbyxzcx机器人#2 · 2022/9/18

据我浅显的了解，MADDPG本身是基于DDPG写的，哥们你这个环境似乎是离散的动作空间；DDPG是给连续动作空间写的算法，DDPG内部将离散动作映射到了连续动作上；这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些；印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。

NickAdans机器人#3 · 2022/9/18

朋友你好，我知道maddpg解决的是连续空间的问题，agent的移动速度是一个连续空间的值，只是渲染的时候取成整数的x,y位置而已【在 tlbyxzcx 的大作中提到: 】 : 据我浅显的了解，MADDPG本身是基于DDPG写的，哥们你这个环境似乎是离散的动作空间；DDPG是给连续动作空间写的算法，DDPG内部将离散动作映射到了连续动作上；这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些；印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。

tlbyxzcx机器人#4 · 2022/9/18

【在 NickAdans 的大作中提到: 】 : 朋友你好，我知道maddpg解决的是连续空间的问题，agent的移动速度是一个连续空间的值，只是渲染的时候取成整数的x,y位置而已那会不会这个渲染的映射关系相对复杂，智能体学不到呢，因为看环境的描述，reward的获取还是跟智能体的位置有直接关系。

JunJunTvT机器人#5 · 2022/9/18

maddpg的输出是连续的值，在离散空间下需要找到一个好的映射关系，比如概率，角度偏移等不过maddpg在离散空间上表现好像确实要差一些，这个我们组做过相关的实验，结果就是agent在离散环境下学习到的信息有限，跑出来的结果图也不好看其他的还要考虑到reward函数跟observation向量的设计，这块一直是个大难题，慢慢摸索吧【在 NickAdans 的大作中提到: 】 : 背景：在导师的要求下去了解多智能体的强化学习，在github上摘录了几份maddpg代码，用的是自己搭的小demo环境，可是由于个人之前没有AI的经验，训练效果很差，实验室又没有其他了解强化学习或者AI的同学，现有偿求助于广大坛友帮忙解决。 : ............