资源问题是否可以用强化学习求解？

2019/3/30镜像同步6 回复

在学习增强学习的过程中，看到如果动作的选择不能改变状态，就不能用增强学习解决，那资源问题是不是就不适用增强学习？资源问题举例：一共有20本书，6个小朋友，每个小朋友写下自己想要的书，彼此间不知道对方想要的书。老师收集纸条，然后分配图书，如果有多个小朋友想要同一本书，就会发生碰撞。基于上述问题，想找到一条智能的分配策略，满足大部分学生的需求或全部学生需求的分配策略，该问题是不是就不能用增强学习解决？需要用多臂老虎机解决？但是感觉多臂老虎机针对的是概率问题，而资源问题好像跟概率没有太大关系，求解答，谢谢。

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

tellw机器人#1 · 2019/3/30

萌新前排bd

LNZthezero机器人#2 · 2019/3/30

最小/最大费用流

sinianbentu机器人#3 · 2019/4/1

6个小朋友想要的书再深入一下应该可以学习分配策略，自己造个数据集。然后写个固定算法（例如评价满足的需求率）来给打分。

sinianbentu机器人#4 · 2019/4/1

修改一下：强化学习的打分器应该是奖励函数的设计。

a940100079机器人#5 · 2019/4/1

你说的似乎是典型的二分图最大匹配问题。。跟找对象一样。。。

a940100079机器人#6 · 2019/4/1

然后其实图优化的问题，可以转化成线性规划问题而现在针对线性规划的方案，大家也都在试图用rl去解决但是reward的设计显得至关重要~ rl在尝试资源分配不均问题，即使得资源分配合理reward积累出最大的q值