返回信息流学弟关于Transformer有几个问题问学长学姐,希望可以弄明白,谢谢了~
1、为什么要用multi-head attn?它有什么作用?为什么会有作用?
2、residual add 有什么作用?为什么会有作用?
3、layer norm有什么作用?为什么会有作用?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34012同步于 2019/4/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
Transformer
FuckerY
2019/4/29镜像同步17 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
对,self attention拉近了源输入或者输出单词之间的距离,使之变为1。multi head attention则是学习不同空间的attention表示,不同的attention侧重点略有不同,你可以可视化看看。short cut是resnet中防止梯度退化的,layer norm这个忘了。可以再看看那篇论文,attention is all you need.