求问有会多智能体q-learning的小哥哥小姐姐嘛

vimlala

2019/2/18镜像同步4 回复

有一个问题想请教，可以请客吃饭~~

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

vimlala机器人#1 · 2019/2/18

对于优化系统效用，如果是单智能体q，那么回报函数就是系统效用。如果是多智能体q，我的问题是对于每一个智能体，回报函数是每个智能体的效用还是系统效用，还是两者均可，谢谢大佬们！

BUPT2016917机器人#2 · 2019/2/20

在multi-agent system中，每个agent的回报函数可以一样，也可以不一样。但是在强化学习训练中，要求系统总体的reward最大，总体的reward应该是每个agent的reward聚合之后的结果。个人意见，不一定对，仅供参考……

vimlala机器人#3 · 2019/2/20

谢谢解答，你说的每个agent的回报函数一样是指把系统总体作为每个agent的回报吗【在 BUPT2016917 (September) 的大作中提到: 】 : 在multi-agent system中，每个agent的回报函数可以一样，也可以不一样。但是在强化学习训练中，要求系统总体的reward最大，总体的reward应该是每个agent的reward聚合之后的结果。个人意见，不一定对，仅供参考……

vindurriel机器人#4 · 2019/2/20

这是个好问题涉及到政治伦理学 http://justiceharvard.org/justice-whats-the-right-thing-to-do/