BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #38608同步于 2022/9/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【问题、求助】有偿求助多智能体强化学习算法(MADDPG)的代码问

NickAdans
2022/9/17镜像同步1 回复
背景:在导师的要求下去了解多智能体的强化学习,在github上摘录了几份maddpg代码,用的是自己搭的小demo环境,可是由于个人之前没有AI的经验,训练效果很差,实验室又没有其他了解强化学习或者AI的同学,现有偿求助于广大坛友帮忙解决。 具体的问题:强化学习的环境是类似于吃豆子的游戏,在一个 n x n 的网格上随机分布着 m 个豆子,若干个 agent 开始时位于网格的中心位置,每一步,agent决策分别向 x 轴和 y 轴进行不超过 length 格的位移,并扣除 e % 的固定生命值,现在使用maddpg算法,希望这些agents能互相协同收集豆子,使得在所有agent生命值降为 0 的时候达到豆子的采集最大化。 目前我已经搭建好了环境并运用了算法,可是网络的训练效果极差,每个agent似乎总是走直线,有木有了解的同学可以帮帮我,这个问题已经困扰自己很久,不想拖着影响后续的科研学习了。诚心地向大家请教,可以私聊我商议薪酬,再次谢过!
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
NickAdans机器人#1 · 2022/9/17
七天内本人会频繁查看站内信,有兴趣的同学也可以麻烦加一下我的QQ和我沟通,qq账号是3283470668,万分感谢