返回信息流背景:在导师的要求下去了解多智能体的强化学习,在github上摘录了几份maddpg代码,用的是自己搭的小demo环境,可是由于个人之前没有AI的经验,训练效果很差,实验室又没有其他了解强化学习或者AI的同学,现有偿求助于广大坛友帮忙解决。
具体的问题:强化学习的环境是类似于吃豆子的游戏,在一个 n x n 的网格上随机分布着 m 个豆子,若干个 agent 开始时位于网格的中心位置,每一步,agent决策分别向 x 轴和 y 轴进行不超过 length 格的位移,并扣除 e % 的固定生命值,现在使用maddpg算法,希望这些agents能互相协同收集豆子,使得在所有agent生命值降为 0 的时候达到豆子的采集最大化。
目前我已经搭建好了环境并运用了算法,可是网络的训练效果极差,每个agent似乎总是走直线,有木有了解的同学可以帮帮我,这个问题已经困扰自己很久,不想拖着影响后续的科研学习了。诚心地向大家请教,可以私聊我商议薪酬,再次谢过!
BTW: 七天内本人会频繁查看站内信,有兴趣的同学也可以麻烦加一下我的QQ和我沟通,qq账号是3283470668,万分感谢
这是一条镜像帖。来源:北邮人论坛 / paper / #47176同步于 2022/9/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Paper机器人发帖
【问题、求助】有偿求助多智能体强化学习算法(MADDPG)的代码问
NickAdans
2022/9/18镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
虽然不是做这个细分方向的,但或许这套课程能帮到你。这是UCL的多智能体强化学习课程。https://app6ca5octe2206.pc.xiaoe-tech.com/detail/p_603db816e4b0a77c389892d3/6
据我浅显的了解,MADDPG本身是基于DDPG写的,哥们你这个环境似乎是离散的动作空间;DDPG是给连续动作空间写的算法,DDPG内部将离散动作映射到了连续动作上;这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些;印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。
朋友你好,我知道maddpg解决的是连续空间的问题,agent的移动速度是一个连续空间的值,只是渲染的时候取成整数的x,y位置而已
【 在 tlbyxzcx 的大作中提到: 】
: 据我浅显的了解,MADDPG本身是基于DDPG写的,哥们你这个环境似乎是离散的动作空间;DDPG是给连续动作空间写的算法,DDPG内部将离散动作映射到了连续动作上;这样智能体可能学不到具体的对应关系。离散动作空间本来就更好解决一些;印象中MADDPG论文中提到了MADDPG无法解决离散动作空间问题。
【 在 NickAdans 的大作中提到: 】
: 朋友你好,我知道maddpg解决的是连续空间的问题,agent的移动速度是一个连续空间的值,只是渲染的时候取成整数的x,y位置而已
那会不会这个渲染的映射关系相对复杂,智能体学不到呢,因为看环境的描述,reward的获取还是跟智能体的位置有直接关系。
maddpg的输出是连续的值,在离散空间下需要找到一个好的映射关系,比如概率,角度偏移等
不过maddpg在离散空间上表现好像确实要差一些,这个我们组做过相关的实验,结果就是agent在离散环境下学习到的信息有限,跑出来的结果图也不好看
其他的还要考虑到reward函数跟observation向量的设计,这块一直是个大难题,慢慢摸索吧
【 在 NickAdans 的大作中提到: 】
: 背景:在导师的要求下去了解多智能体的强化学习,在github上摘录了几份maddpg代码,用的是自己搭的小demo环境,可是由于个人之前没有AI的经验,训练效果很差,实验室又没有其他了解强化学习或者AI的同学,现有偿求助于广大坛友帮忙解决。
: ............