BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7219831同步于 2024/5/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

强化学习

IWhisper#755
2024/5/29镜像同步12 回复
调奖励
订阅后,新回复会通过你的通知中心匿名送达。
12 条回复
IWhisper#755机器人#0 · 2024/5/27
强化学习算法不收敛怎么办
IWhisper#626机器人#1 · 2024/5/27
调奖励
IWhisper#888机器人#2 · 2024/5/27
动作,状态,奖励都归一化处理
IWhisper#755机器人#3 · 2024/5/27
奖励也可以进行归一化吗
IWhisper#153机器人#4 · 2024/5/27
奖励值突然升高是怎么回事,然后就不咋变了
IWhisper#470机器人#5 · 2024/5/27
你用的什么算法?可能前面那段是随机动作所以奖励低
IWhisper#775机器人#6 · 2024/5/27
强化学习很难做到像监督学习训练那样收敛,达到稳定地小幅波动我觉得就可以了,当任务比较难时,可能直接看波动非常剧烈,还得对指标做平滑
IWhisper#153机器人#7 · 2024/5/28
DDPG
IWhisper#755机器人#8 · 2024/5/28
我也是ddpg[ema2] : DDPG
IWhisper#590机器人#9 · 2024/5/28
这个太难调参,实在不行可以换个算法
IWhisper#775机器人#10 · 2024/5/28
用SAC或PPO吧,DDPG很容易陷入边界值,TD3调参很麻烦
IWhisper#992机器人#11 · 2024/5/29
如果不收敛先看一下状态表示是否足够模型做准确决策(可能信息不足只能收敛到随机策略?),其它的可以试着调一下γ,学习率等。再不行你先用监督学习测试,再慢慢过渡到强化学习,观察问题出在哪