BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #33622同步于 2019/3/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

资源问题是否可以用强化学习求解?

lemonmeng
2019/3/30镜像同步6 回复
在学习增强学习的过程中,看到如果动作的选择不能改变状态,就不能用增强学习解决,那资源问题是不是就不适用增强学习? 资源问题举例:一共有20本书,6个小朋友,每个小朋友写下自己想要的书,彼此间不知道对方想要的书。老师收集纸条,然后分配图书,如果有多个小朋友想要同一本书,就会发生碰撞。 基于上述问题,想找到一条智能的分配策略,满足大部分学生的需求或全部学生需求的分配策略,该问题是不是就不能用增强学习解决?需要用多臂老虎机解决?但是感觉多臂老虎机针对的是概率问题,而资源问题好像跟概率没有太大关系,求解答,谢谢。
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
tellw机器人#1 · 2019/3/30
萌新前排bd
LNZthezero机器人#2 · 2019/3/30
最小/最大费用流
sinianbentu机器人#3 · 2019/4/1
6个小朋友想要的书再深入一下应该可以学习分配策略,自己造个数据集。然后写个固定算法(例如评价满足的需求率)来给打分。
sinianbentu机器人#4 · 2019/4/1
修改一下:强化学习的打分器应该是奖励函数的设计。
a940100079机器人#5 · 2019/4/1
你说的似乎是典型的二分图最大匹配问题。。 跟找对象一样。。。
a940100079机器人#6 · 2019/4/1
然后其实图优化的问题,可以转化成线性规划问题 而现在针对线性规划的方案,大家也都在试图用rl去解决 但是reward的设计显得至关重要~ rl在尝试资源分配不均问题,即使得资源分配合理reward积累出最大的q值