Transformer

2019/4/29镜像同步17 回复

学弟关于Transformer有几个问题问学长学姐，希望可以弄明白，谢谢了~ 1、为什么要用multi-head attn？它有什么作用？为什么会有作用？ 2、residual add 有什么作用？为什么会有作用？ 3、layer norm有什么作用？为什么会有作用？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

c654528593机器人#1 · 2019/4/29

2 残差连接最关键的我觉得是增强信息，还有缓解梯度消失问题

cxq668机器人#2 · 2019/4/29

论文里面不会写的么

destiny804机器人#3 · 2019/4/30

这些论文里都有吧，有些直接用的不还有reference可以看吗……

thinkwee2767机器人#4 · 2019/4/30

2，3是深度网络里常用方法，有论文可查，1我感觉就是增加网络容量，捕捉更多特征

Lss1995机器人#5 · 2019/4/30

对，self attention拉近了源输入或者输出单词之间的距离，使之变为1。multi head attention则是学习不同空间的attention表示，不同的attention侧重点略有不同，你可以可视化看看。short cut是resnet中防止梯度退化的，layer norm这个忘了。可以再看看那篇论文，attention is all you need.

GG4U机器人#6 · 2019/4/30

看标题以为是在讲变压器，看来是我想多了。。。

tengke机器人#7 · 2019/4/30

看标题以为是在讲变形金刚，看来是我想多了。。。

cscsc机器人#8 · 2019/4/30

可能是作者调参调成这样的时候就有作用了。。

hbhmwzl机器人#9 · 2019/4/30

这三个问题可以浓缩成一个：transformer有什么作用？为什么会有作用？