返回信息流复现论文时发现,使用attetion能达到论文的结果,但问题是使用平均值结果基本没多大差别啊,甚至直接将query向量设成一个随机数,结果还是一样。。。。。这是为啥啊?[ema1][ema1][ema1]
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30521同步于 2018/7/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
NLP中attention不起作用会是什么原因?
jadfi
2018/7/14镜像同步13 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
楼主你可以把paper名称给出来,大家一起看看模型,一起帮你分析下。
根据我做nlp的经验,现在即使很多顶会的关于attention的网络其实都是听上去靠谱,其实并不work(即使paper里给的代码也无法跑出paper说的效果)。
主要有2个原因我感觉:
1 attention本身设置就是一个需要技巧的操作,需要结合场景仔细调试,随便设计其实效果很可能和随机差不多;
2 attention机制需要的数据量是比较大的(需要充分训练attention权值矩阵),往往paper里用的实验数据集量都是比较小的,所以你感觉用不用attention效果差不多。(这个可能是导致你问题的主要原因)
PS:https://blog.csdn.net/guoyuhaoaaa/article/details/79766572 这篇讲了阿里广告推荐系统使用attention的方式,可以参考,由于是工业界产出的模型,肯定是能提高性能
感谢回复~~,我也怀疑论文的效果,但是若干篇相关论文都说比均值好,我是做关系识别,主要参考两篇论文:
1、Neural Relation Extraction with Selective Attention over Instances 2016年ACL,清华刘志远发的,基本是引入attention的奠基文章,后续很多顶会论文都是基于这篇改进的
2、Adversarial Training for Relation Extraction 2017年EMNLP,伯克利大学的,我是基于这篇复现的(有源码),能达到论文中给出的效果,但是这篇直接是attention做baseline,并没有和均值对比,我对比就发现没多少差别。
两份数据集上都试过,一个13W左右,一个29W左右,结果query向量,权重啥的,随机化,均值,结果都一样。而且我另外一个同学在一个分类任务上也遇到了相同情况,连随机结果都一样,有点费解啊。。。
【 在 guoyuhao 的大作中提到: 】
: 楼主你可以把paper名称给出来,大家一起看看模型,一起帮你分析下。
: 根据我做nlp的经验,现在即使很多顶会的关于attention的网络其实都是听上去靠谱,其实并不work(即使paper里给的代码也无法跑出paper说的效果)。
: 主要有2个原因我感觉:
: ...................
这个不是让网络自己学的吗?权重随机结果都差不多。。。
【 在 q397273499 的大作中提到: 】
: 没模型怎么帮你分析呢?可能是模型写错了吧,导致模型的权重更多的分在了其他特征上,而非attention上面。