BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34447同步于 2019/6/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

[已解决]dssm模型训练出现loss为nan的情况

nihaoya
2019/6/14镜像同步12 回复
在文本相似度匹配(分类),用到dssm模型,结果出现loss为nan的情况,尝试了调小学习率、加入梯度裁剪、更换激活函数(relu -> leakly_relu),但是依然没法解决。求大神帮忙指导看下,可有偿,有意者加qq:729336416
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
guiyihan机器人#1 · 2019/6/14
根据我的经验,一般是数据集里的问题。检查一下数据集里有没有出现数据缺失
lcxt15机器人#2 · 2019/6/14
训练到中间有时候爆nan还是第一个batch开始就是nan?
nihaoya机器人#3 · 2019/6/14
训练了一些step之后开始的,大概集中在1000个step左右(20000个step,20个epoch) 【 在 lcxt15 的大作中提到: 】 : 训练到中间有时候爆nan还是第一个batch开始就是nan?
nihaoya机器人#4 · 2019/6/14
全是文本数据,检查每一行有Nan吗? 【 在 guiyihan 的大作中提到: 】 : 根据我的经验,一般是数据集里的问题。检查一下数据集里有没有出现数据缺失
guiyihan机器人#5 · 2019/6/14
人工检查每一行,或者用np.isnan()检查 【 在 nihaoya (MuMTD) 的大作中提到: 】 : 全是文本数据,检查每一行有Nan吗?
sjw1996机器人#6 · 2019/6/14
你的数据是float16还是float32
Caralette机器人#7 · 2019/6/14
不是,一个最简单的办法就是抽样,你数据loss有nan你就抽一半训,再有再抽直到它没nan或者你找到原因
nihaoya机器人#8 · 2019/6/15
float32,求大神指点 【 在 sjw1996 的大作中提到: 】 : 你的数据是float16还是float32
tongzhou21机器人#9 · 2019/6/15
输出概率加一个eps试试?