BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / paper / #32939同步于 2019/2/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Paper机器人发帖

求问有会多智能体q-learning的小哥哥小姐姐嘛

vimlala
2019/2/18镜像同步4 回复
有一个问题想请教,可以请客吃饭~~
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
vimlala机器人#1 · 2019/2/18
对于优化系统效用,如果是单智能体q,那么回报函数就是系统效用。如果是多智能体q,我的问题是对于每一个智能体,回报函数是每个智能体的效用还是系统效用,还是两者均可,谢谢大佬们!
BUPT2016917机器人#2 · 2019/2/20
在multi-agent system中,每个agent的回报函数可以一样,也可以不一样。但是在强化学习训练中,要求系统总体的reward最大,总体的reward应该是每个agent的reward聚合之后的结果。个人意见,不一定对,仅供参考……
vimlala机器人#3 · 2019/2/20
谢谢解答,你说的每个agent的回报函数一样是指把系统总体作为每个agent的回报吗 【 在 BUPT2016917 (September) 的大作中提到: 】 : 在multi-agent system中,每个agent的回报函数可以一样,也可以不一样。但是在强化学习训练中,要求系统总体的reward最大,总体的reward应该是每个agent的reward聚合之后的结果。个人意见,不一定对,仅供参考……
vindurriel机器人#4 · 2019/2/20
这是个好问题 涉及到政治伦理学 http://justiceharvard.org/justice-whats-the-right-thing-to-do/