返回信息流最近在学习lstm,进行文本预测和情感分析,但有个地方一直想不明白:
在文本预测时,输入一条n长的句子,lstm会在每次输入该句子的一个单词向量时对进行权值更新,还是在该句子的n个单词全部输入之后进行权值更新?
资料太少了,都找不到……
求大神们详细得指点迷津,感谢
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #21841同步于 2016/11/24
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
求问lstm的时间步长问题
songJiang
2016/11/24镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
一层LSTM的时间步如果是n,你把它展开就等价于在前向传播中n层的DNN,然后在反向传播是利用BPTT计算梯度进行权值更新,所以必须是n个全部输入完成前向传播才能进行权值更新
* 一般是N个句子inference完,再update一次参数。
* 是否可以权值更新取决于你的COST是否有信号回传,sequence2sequence每输入一个word都有cost部分产生,(但总的symbolic cost还是batch算的),sequence classfication一个句子输完才有cost部分产生。所以你不batch update,single sample update逻辑上什么时候可以update取决你的网络
* biology network甚至可以一边inference,一边update