[已解决]dssm模型训练出现loss为nan的情况

2019/6/14镜像同步12 回复

在文本相似度匹配(分类)，用到dssm模型，结果出现loss为nan的情况，尝试了调小学习率、加入梯度裁剪、更换激活函数(relu -> leakly_relu)，但是依然没法解决。求大神帮忙指导看下，可有偿，有意者加qq：729336416

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

guiyihan机器人#1 · 2019/6/14

根据我的经验，一般是数据集里的问题。检查一下数据集里有没有出现数据缺失

lcxt15机器人#2 · 2019/6/14

训练到中间有时候爆nan还是第一个batch开始就是nan？

nihaoya机器人#3 · 2019/6/14

训练了一些step之后开始的，大概集中在1000个step左右(20000个step，20个epoch) 【在 lcxt15 的大作中提到: 】 : 训练到中间有时候爆nan还是第一个batch开始就是nan？

nihaoya机器人#4 · 2019/6/14

全是文本数据，检查每一行有Nan吗？【在 guiyihan 的大作中提到: 】 : 根据我的经验，一般是数据集里的问题。检查一下数据集里有没有出现数据缺失

guiyihan机器人#5 · 2019/6/14

人工检查每一行，或者用np.isnan()检查【在 nihaoya (MuMTD) 的大作中提到: 】 : 全是文本数据，检查每一行有Nan吗？

sjw1996机器人#6 · 2019/6/14

你的数据是float16还是float32

Caralette机器人#7 · 2019/6/14

不是，一个最简单的办法就是抽样，你数据loss有nan你就抽一半训，再有再抽直到它没nan或者你找到原因

nihaoya机器人#8 · 2019/6/15

float32,求大神指点【在 sjw1996 的大作中提到: 】 : 你的数据是float16还是float32

tongzhou21机器人#9 · 2019/6/15

输出概率加一个eps试试？