BYR Achieve · 镜像论坛

【问题】在bptt中，每个时间步都要计算loss吗？

2018/4/6镜像同步3 回复

最近毕设要完成一个lstm模型，但是训练过程越看越混乱，跑来问问论坛大佬们在很多介绍bptt的文章中，是每个时刻都计算loss，比如通过时间反向传播 - 动手学深度学习 0.6 文档https://zh.gluon.ai/chapter_recurrent-neural-networks/bptt.html 但是我在实际例子中看到只输出了最后一个时间步的output来计算loss，比如pytorch文档中的例子Classifying Names with a Character-Level RNN ----------------------------------------------------- def train(category_tensor, line_tensor): hidden = rnn.initHidden() rnn.zero_grad() for i in range(line_tensor.size()[0]): output, hidden = rnn(line_tensor[i], hidden) loss = criterion(output, category_tensor) loss.backward() # Add parameters' gradients to their values, multiplied by learning rate for p in rnn.parameters(): p.data.add_(-learning_rate, p.grad.data) return output, loss.data[0] -------------------------------------------------------------------- 所以到底哪种才是正确的？真实过程是怎样的

订阅后，新回复会通过你的通知中心匿名送达。