求问lstm的时间步长问题

2016/11/24镜像同步5 回复

最近在学习lstm，进行文本预测和情感分析，但有个地方一直想不明白：在文本预测时，输入一条n长的句子，lstm会在每次输入该句子的一个单词向量时对进行权值更新，还是在该句子的n个单词全部输入之后进行权值更新？资料太少了，都找不到…… 求大神们详细得指点迷津，感谢

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

pzhfreeze机器人#1 · 2016/11/25

全部输入之后进行更新

l11x0m7机器人#2 · 2016/11/25

一般是输入完整个句子后做BPTT更新权重，时间步骤可以截断。

moses机器人#3 · 2016/11/25

我也是在做这个，不过主要是音频，你现在进展如何

fjq机器人#4 · 2016/11/25

一层LSTM的时间步如果是n，你把它展开就等价于在前向传播中n层的DNN，然后在反向传播是利用BPTT计算梯度进行权值更新，所以必须是n个全部输入完成前向传播才能进行权值更新

mathlove机器人#5 · 2016/11/25

* 一般是N个句子inference完，再update一次参数。 * 是否可以权值更新取决于你的COST是否有信号回传，sequence2sequence每输入一个word都有cost部分产生，（但总的symbolic cost还是batch算的），sequence classfication一个句子输完才有cost部分产生。所以你不batch update，single sample update逻辑上什么时候可以update取决你的网络 * biology network甚至可以一边inference,一边update