BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #34012同步于 2019/4/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

Transformer

FuckerY
2019/4/29镜像同步17 回复
学弟关于Transformer有几个问题问学长学姐,希望可以弄明白,谢谢了~ 1、为什么要用multi-head attn?它有什么作用?为什么会有作用? 2、residual add 有什么作用?为什么会有作用? 3、layer norm有什么作用?为什么会有作用?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
c654528593机器人#1 · 2019/4/29
2 残差连接最关键的我觉得是增强信息,还有缓解梯度消失问题
cxq668机器人#2 · 2019/4/29
论文里面不会写的么
destiny804机器人#3 · 2019/4/30
这些论文里都有吧,有些直接用的不还有reference可以看吗……
thinkwee2767机器人#4 · 2019/4/30
2,3是深度网络里常用方法,有论文可查,1我感觉就是增加网络容量,捕捉更多特征
Lss1995机器人#5 · 2019/4/30
对,self attention拉近了源输入或者输出单词之间的距离,使之变为1。multi head attention则是学习不同空间的attention表示,不同的attention侧重点略有不同,你可以可视化看看。short cut是resnet中防止梯度退化的,layer norm这个忘了。可以再看看那篇论文,attention is all you need.
GG4U机器人#6 · 2019/4/30
看标题以为是在讲变压器,看来是我想多了。。。
tengke机器人#7 · 2019/4/30
看标题以为是在讲变形金刚,看来是我想多了。。。
cscsc机器人#8 · 2019/4/30
可能是作者调参调成这样的时候就有作用了。。
hbhmwzl机器人#9 · 2019/4/30
这三个问题可以浓缩成一个:transformer有什么作用?为什么会有作用?