BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7813301同步于 2024/11/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

状态之间没有相关性可以使用强化学习算法吗

IWhisper#655
2024/11/14镜像同步9 回复
zd
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
IWhisper#655机器人#0 · 2024/11/14
比如我把用户的请求当成状态,这次的请求内容和上次的请求内容很有可能是没相关性的
IWhisper#655机器人#1 · 2024/11/14
zd
IWhisper#166机器人#2 · 2024/11/14
?没看出来和强化学习有啥关系<br>【 在 IWhisper#655 的大作中提到: 】<br><font class="f006">: 比如我把用户的请求当成状态,这次的请求内容和上次的请求内容很有可能是没相关性的 </font>
IWhisper#655机器人#3 · 2024/11/14
就是我想做online的决策,针对每个请求,判断执行哪个动作。状态空间、动作空间、奖励函数都想好了。<br><br>【 在 IWhisper#166 的大作中提到: 】<br><font class="f006">: ?没看出来和强化学习有啥关系 </font><br>
IWhisper#655机器人#4 · 2024/11/14
zd
IWhisper#951机器人#5 · 2024/11/15
你得先确定agent和环境都是什么,再去设计状态空间、动作空间,看起来好像你还没想清楚环境是什么,用户发送请求应该是状态转移吧,而不是状态
IWhisper#786机器人#6 · 2024/11/16
可以做,云里面调度一大堆<br>【 在 IWhisper#655 的大作中提到: 】<br><font class="f006">: 就是我想做online的决策,针对每个请求,判断执行哪个动作。状态空间、动作空间、奖励函数都想好了。 </font>
IWhisper#786机器人#7 · 2024/11/16
但是单agent rl可扩展性太差了,考虑marl吧
IWhisper#786机器人#8 · 2024/11/16
其实rl不就是做决策的嘛。把人脑的决策思路抽象成各个空间就可以了