用word2vec扩充情感辞典的问题

2017/6/18镜像同步2 回复

最近在学习基于情感辞典的情感极性分析，基础情感辞典用的是hotnet和台湾大学情感辞典，想先从谭松波的10000条酒店评论中选取一份情感种子词，然后再把这些评论当作训练集，用word2vec训练得到每个种子词的前10个相似度最高的词，根据每个相似词在基础情感辞典里的情感分和与种子词的相似度作加权求和来给种子词设定情感分后，再将种子词加入到情感字典中。但是现在用word2vec训练出来排名前10的很多相似词都是相关的反义词，导致非常多种子词直接被分到错误的情感辞典里了（积极词被分到了消极词的词典中，消极被分到积极中），这个问题是不是训练语料太少导致的呢？求大佬点拨[ema1][ema1] 发自「贵邮」

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

wy3434000机器人#1 · 2017/6/18

Word2vec不合适去你想一下它的训练过程就会发现同义词和反义词可以出现在同一位置所以得到相似的word embedding是很可能的。你应该用的是wordnet 或者synonym 库。

petok机器人#2 · 2017/6/18

谢谢你！我再查查你说的相关的资料【在 wy3434000 的大作中提到: 】 : Word2vec不合适去你想一下它的训练过程就会发现同义词和反义词可以出现在同一位置所以得到相似的word embedding是很可能的。你应该用的是wordnet 或者synonym 库。