返回信息流取动作维度的较大者,a1 a4的话,就忽略后面的a5。或者直接把动作设为a1 a2 a3 a4
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7809904同步于 2024/11/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习中动作空间会变该怎么处理
IWhisper#439
2024/11/13镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
1. 不好意思,没理解这句话啥意思呀“取动作维度的较大者,a1 a4的话,就忽略后面的a5” <br>2. 针对“或者直接把动作设为a1 a2 a3 a4”,那如果a4不是提前能知道的呢?<br><br><br>【 在 IWhisper#824 的大作中提到: 】<br><font class="f006">: 取动作维度的较大者,a1 a4的话,就忽略后面的a5。或者直接把动作设为a1 a2 a3 a4 </font><br>
<br>【 在 IWhisper#439 的大作中提到: 】<br><font class="f006">: 1. 不好意思,没理解这句话啥意思呀“取动作维度的较大者,a1 a4的话,就忽略后面的a5” </font><br><font class="f006">: 2. 针对“或者直接把动作设为a1 a2 a3 a4”,那如果a4不是提前能知道的呢? </font><br><font class="f006">: </font><br>就比如说前100轮action的dim是3,后100轮是2,那就设dim一直为3,后100轮的时候,忽略某个位置的action就行。或者设置action的dim就为4,分别代表a1 a2 a3 a4,前100轮取前三位,后100轮取后两位
那可以分两个训练过程?<br>【 在 IWhisper#223 的大作中提到: 】<br><font class="f006">: 你的意思是到了一定的step以后,动作空间和动作就变? </font><br>
如果动作空间是可列的,就用pointer net,可以处理不定大小的检索空间;如果动作种类有几个,取值要连续,也可以分级,用attention先算出做哪个动作,然后再取对应的向量算动作值