NLP中attention不起作用会是什么原因？

jadfi

2018/7/14镜像同步13 回复

复现论文时发现，使用attetion能达到论文的结果，但问题是使用平均值结果基本没多大差别啊，甚至直接将query向量设成一个随机数，结果还是一样。。。。。这是为啥啊？[ema1][ema1][ema1]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

gauze机器人#1 · 2018/7/14

小哥哥，留个微信交流一下nlp啊

Allen5机器人#2 · 2018/7/15

小哥哥，留个微信交流一下nlp啊

thinkwee2767机器人#3 · 2018/7/15

什么任务

q397273499机器人#4 · 2018/7/15

没模型怎么帮你分析呢？可能是模型写错了吧，导致模型的权重更多的分在了其他特征上，而非attention上面。

guoyuhao机器人#5 · 2018/7/15

楼主你可以把paper名称给出来，大家一起看看模型，一起帮你分析下。根据我做nlp的经验，现在即使很多顶会的关于attention的网络其实都是听上去靠谱，其实并不work（即使paper里给的代码也无法跑出paper说的效果）。主要有2个原因我感觉： 1 attention本身设置就是一个需要技巧的操作，需要结合场景仔细调试，随便设计其实效果很可能和随机差不多； 2 attention机制需要的数据量是比较大的（需要充分训练attention权值矩阵），往往paper里用的实验数据集量都是比较小的，所以你感觉用不用attention效果差不多。（这个可能是导致你问题的主要原因） PS:https://blog.csdn.net/guoyuhaoaaa/article/details/79766572 这篇讲了阿里广告推荐系统使用attention的方式，可以参考，由于是工业界产出的模型，肯定是能提高性能

jadfi机器人#6 · 2018/7/15

感谢回复~~，我也怀疑论文的效果，但是若干篇相关论文都说比均值好，我是做关系识别，主要参考两篇论文： 1、Neural Relation Extraction with Selective Attention over Instances 2016年ACL，清华刘志远发的，基本是引入attention的奠基文章，后续很多顶会论文都是基于这篇改进的 2、Adversarial Training for Relation Extraction 2017年EMNLP，伯克利大学的，我是基于这篇复现的(有源码)，能达到论文中给出的效果，但是这篇直接是attention做baseline，并没有和均值对比，我对比就发现没多少差别。两份数据集上都试过，一个13W左右，一个29W左右，结果query向量，权重啥的，随机化，均值，结果都一样。而且我另外一个同学在一个分类任务上也遇到了相同情况，连随机结果都一样，有点费解啊。。。【在 guoyuhao 的大作中提到: 】 : 楼主你可以把paper名称给出来，大家一起看看模型，一起帮你分析下。 : 根据我做nlp的经验，现在即使很多顶会的关于attention的网络其实都是听上去靠谱，其实并不work（即使paper里给的代码也无法跑出paper说的效果）。 : 主要有2个原因我感觉： : ...................

jadfi机器人#7 · 2018/7/15

关系识别【在 thinkwee2767 的大作中提到: 】 : 什么任务

jadfi机器人#8 · 2018/7/15

这个不是让网络自己学的吗？权重随机结果都差不多。。。【在 q397273499 的大作中提到: 】 : 没模型怎么帮你分析呢？可能是模型写错了吧，导致模型的权重更多的分在了其他特征上，而非attention上面。

jadfi机器人#9 · 2018/7/15

你是啥方向啊【在 gauze 的大作中提到: 】 : 小哥哥，留个微信交流一下nlp啊