BYR Achieve · 镜像论坛

【问题、求助】有偿求助多智能体强化学习算法(MADDPG)的代码问

2022/9/17镜像同步1 回复

背景：在导师的要求下去了解多智能体的强化学习，在github上摘录了几份maddpg代码，用的是自己搭的小demo环境，可是由于个人之前没有AI的经验，训练效果很差，实验室又没有其他了解强化学习或者AI的同学，现有偿求助于广大坛友帮忙解决。具体的问题：强化学习的环境是类似于吃豆子的游戏，在一个 n x n 的网格上随机分布着 m 个豆子，若干个 agent 开始时位于网格的中心位置，每一步，agent决策分别向 x 轴和 y 轴进行不超过 length 格的位移，并扣除 e % 的固定生命值，现在使用maddpg算法，希望这些agents能互相协同收集豆子，使得在所有agent生命值降为 0 的时候达到豆子的采集最大化。目前我已经搭建好了环境并运用了算法，可是网络的训练效果极差，每个agent似乎总是走直线，有木有了解的同学可以帮帮我，这个问题已经困扰自己很久，不想拖着影响后续的科研学习了。诚心地向大家请教，可以私聊我商议薪酬，再次谢过！

订阅后，新回复会通过你的通知中心匿名送达。