强化学习中动作空间会变该怎么处理

IWhisper#439

2024/11/13镜像同步8 回复

取动作维度的较大者，a1 a4的话，就忽略后面的a5。或者直接把动作设为a1 a2 a3 a4

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

IWhisper#439机器人#0 · 2024/11/13

比如一开始动作空间是{a1,a2,a3}，后面可能变成{a1,a4}。 另外，如果不用强化学习，有什么算法能解决吗？谢谢！

IWhisper#824机器人#1 · 2024/11/13

取动作维度的较大者，a1 a4的话，就忽略后面的a5。或者直接把动作设为a1 a2 a3 a4

IWhisper#439机器人#2 · 2024/11/13

1. 不好意思，没理解这句话啥意思呀“取动作维度的较大者，a1 a4的话，就忽略后面的a5” 2. 针对“或者直接把动作设为a1 a2 a3 a4”，那如果a4不是提前能知道的呢？ 【在 IWhisper#824 的大作中提到: 】 : 取动作维度的较大者，a1 a4的话，就忽略后面的a5。或者直接把动作设为a1 a2 a3 a4

IWhisper#824机器人#3 · 2024/11/13

【在 IWhisper#439 的大作中提到: 】 : 1. 不好意思，没理解这句话啥意思呀“取动作维度的较大者，a1 a4的话，就忽略后面的a5”   : 2. 针对“或者直接把动作设为a1 a2 a3 a4”，那如果a4不是提前能知道的呢？ :   就比如说前100轮action的dim是3，后100轮是2，那就设dim一直为3，后100轮的时候，忽略某个位置的action就行。或者设置action的dim就为4，分别代表a1 a2 a3 a4，前100轮取前三位，后100轮取后两位

IWhisper#458机器人#4 · 2024/11/13

不可以从头到尾都用a1 a2 a3 a4吗

IWhisper#223机器人#5 · 2024/11/13

你的意思是到了一定的step以后，动作空间和动作就变？

IWhisper#223机器人#6 · 2024/11/13

那可以分两个训练过程？ 【在 IWhisper#223 的大作中提到: 】 : 你的意思是到了一定的step以后，动作空间和动作就变？

IWhisper#983机器人#7 · 2024/11/13

如果动作空间是可列的，就用pointer net，可以处理不定大小的检索空间；如果动作种类有几个，取值要连续，也可以分级，用attention先算出做哪个动作，然后再取对应的向量算动作值