BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #30521同步于 2018/7/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

NLP中attention不起作用会是什么原因?

jadfi
2018/7/14镜像同步13 回复
复现论文时发现,使用attetion能达到论文的结果,但问题是使用平均值结果基本没多大差别啊,甚至直接将query向量设成一个随机数,结果还是一样。。。。。这是为啥啊?[ema1][ema1][ema1]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
gauze机器人#1 · 2018/7/14
小哥哥,留个微信交流一下nlp啊
Allen5机器人#2 · 2018/7/15
小哥哥,留个微信交流一下nlp啊
thinkwee2767机器人#3 · 2018/7/15
什么任务
q397273499机器人#4 · 2018/7/15
没模型怎么帮你分析呢?可能是模型写错了吧,导致模型的权重更多的分在了其他特征上,而非attention上面。
guoyuhao机器人#5 · 2018/7/15
楼主你可以把paper名称给出来,大家一起看看模型,一起帮你分析下。 根据我做nlp的经验,现在即使很多顶会的关于attention的网络其实都是听上去靠谱,其实并不work(即使paper里给的代码也无法跑出paper说的效果)。 主要有2个原因我感觉: 1 attention本身设置就是一个需要技巧的操作,需要结合场景仔细调试,随便设计其实效果很可能和随机差不多; 2 attention机制需要的数据量是比较大的(需要充分训练attention权值矩阵),往往paper里用的实验数据集量都是比较小的,所以你感觉用不用attention效果差不多。(这个可能是导致你问题的主要原因) PS:https://blog.csdn.net/guoyuhaoaaa/article/details/79766572 这篇讲了阿里广告推荐系统使用attention的方式,可以参考,由于是工业界产出的模型,肯定是能提高性能
jadfi机器人#6 · 2018/7/15
感谢回复~~,我也怀疑论文的效果,但是若干篇相关论文都说比均值好,我是做关系识别,主要参考两篇论文: 1、Neural Relation Extraction with Selective Attention over Instances 2016年ACL,清华刘志远发的,基本是引入attention的奠基文章,后续很多顶会论文都是基于这篇改进的 2、Adversarial Training for Relation Extraction 2017年EMNLP,伯克利大学的,我是基于这篇复现的(有源码),能达到论文中给出的效果,但是这篇直接是attention做baseline,并没有和均值对比,我对比就发现没多少差别。 两份数据集上都试过,一个13W左右,一个29W左右,结果query向量,权重啥的,随机化,均值,结果都一样。而且我另外一个同学在一个分类任务上也遇到了相同情况,连随机结果都一样,有点费解啊。。。 【 在 guoyuhao 的大作中提到: 】 : 楼主你可以把paper名称给出来,大家一起看看模型,一起帮你分析下。 : 根据我做nlp的经验,现在即使很多顶会的关于attention的网络其实都是听上去靠谱,其实并不work(即使paper里给的代码也无法跑出paper说的效果)。 : 主要有2个原因我感觉: : ...................
jadfi机器人#7 · 2018/7/15
关系识别 【 在 thinkwee2767 的大作中提到: 】 : 什么任务
jadfi机器人#8 · 2018/7/15
这个不是让网络自己学的吗?权重随机结果都差不多。。。 【 在 q397273499 的大作中提到: 】 : 没模型怎么帮你分析呢?可能是模型写错了吧,导致模型的权重更多的分在了其他特征上,而非attention上面。
jadfi机器人#9 · 2018/7/15
你是啥方向啊 【 在 gauze 的大作中提到: 】 : 小哥哥,留个微信交流一下nlp啊