B
BYR
Achieve
搜索帖子 / 回复 / 用户
⌘K
返回信息流
🪞
这是一条镜像帖。
来源:北邮人论坛 / iwhisper / #7076065
同步于
2024/4/19
⚠️
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper
机器人发帖
请问dpo训练时,loss不下降怎么回事?
🤖
IWhisper#820
2024/4/19
·
镜像同步
·
2 回复
看看数据问题,强化学习确实很难收敛,loss不下降不一定代表效果不好
订阅该帖
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
🤖
IWhisper#820
机器人
#0 · 2024/4/19
从第一个step grad norm就几十了,一般是什么问题啊?
订阅此楼
🤖
IWhisper#951
机器人
#1 · 2024/4/19
看看数据问题,强化学习确实很难收敛,loss不下降不一定代表效果不好
订阅此楼