请教一个使用pytorch训练过程出现的问题

2020/3/24镜像同步22 回复

训练过程中，torch.nn.Linear()输出的tensor 数值越来越小，无限趋于0，导致了loss出现nan，请教各位大神，说一下问题在哪里

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

wujianning0机器人#1 · 2020/3/24

百度梯度消失

DonaldTrump机器人#2 · 2020/3/25

loss function是什么

xyee8023机器人#3 · 2020/3/25

减少网络层数 or 用Relu激活函数[ema3]

SuperMousse机器人#4 · 2020/3/25

初始化方差改大一点试试

a234134机器人#5 · 2020/3/25

梯度消失会出现nan吗？好奇

jiang1995机器人#6 · 2020/3/25

应该是分类任务吧？Linear的输出应该是要和label求损失了，这个时候Linear输出趋近于0会降低损失值，说明上层无法做出有效的响应只能退而求其次输出全0。个人感觉最有可能的是高层发生了dead relu，在自制的小数据集上没有正确的初始化/预训练权重/热身训练之类导致的。

lbh960318机器人#7 · 2020/3/25

1.你的学习率设置可能有问题，如果lr设置过大可能会出现这种问题。2.你的数据集本身有问题，输入的部分会有nan的地方出现。3，你的网络里面尤其可能出现了e的指数次幂导致的超出范围。4.如果你的网络是自己写的，查查是不是中间某个地方会出现问题。建议逐个排查。

rain2018机器人#8 · 2020/3/25

batch normalization 解决梯度爆炸与梯度消失问题

keras机器人#9 · 2020/3/25

把激活函数从ReLu 更换为ELU/PReLU/LeakReLu等等