[问题]求问如何保证文本的特征向量维数一样大？

2015/12/15镜像同步9 回复

问题：目前在做微博聚类，对微博分词之后，采用Google开源的Word2Vec进行词向量的训练，每个词对应一个1*N维的向量，然后对微博进行关键词提取，由于微博的长度不一致导致会产生每个微博提取出来的关键词个数不同，怎么才能保证每条微博由关键词词向量构成的特征向量维数一样呢？除了将每个词向量加起来求平均还没有有其他方法？求各位大神支招

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

fuxuemingzhu机器人#1 · 2015/12/15

不懂帮顶。

fireling机器人#2 · 2015/12/16

做特征词，基于特征词来抽取特征不就得了。

phantomlyc机器人#3 · 2015/12/16

BAG OF WORDS...把所有的词拎出来做K-MEANS聚类。。。这样每条微博的特征是一个K维的向量。。第i维就是这个微博包含多少第i类词。。相当于一个直方图。。

huayimeng1机器人#4 · 2015/12/16

之前这么做过，维数太小，类簇间的区分不开，维数太大，就成了稀疏矩阵了，内存和耗时开销都很大，降维后的效果也不是很理想，求问还有没有更好的方法？【在 phantomlyc 的大作中提到: 】 : BAG OF WORDS...把所有的词拎出来做K-MEANS聚类。。。这样每条微博的特征是一个K维的向量。。第i维就是这个微博包含多少第i类词。。相当于一个直方图。。

icybee机器人#5 · 2015/12/16

tf-idf 提出最有信息含量的前几个词，另：google的word2vec 可以处理维数不同的数据

hoshizora机器人#6 · 2015/12/16

还有个paragrap2vec，也是同一作者，不过评价貌似不太好，说不如直接加起来不过我当时测时感觉还行，比lda好一点

huayimeng1机器人#7 · 2015/12/16

这个我也早就看到了，当时就是看了评价说不好就没用，等会测试看看【在 hoshizora 的大作中提到: 】 : 还有个paragrap2vec，也是同一作者，不过评价貌似不太好，说不如直接加起来 : 不过我当时测时感觉还行，比lda好一点

a27400机器人#8 · 2015/12/16

一般的做法是直接词向量相加成句子，效果已经很不错了，然而科研界大家一直在研究怎么更好的把词向量组合成句子向量（论文不计其数），叫compositional method 如果是工业界不要在意这些细节。。。。个人意见，仅供参考～

huayimeng1机器人#9 · 2015/12/17

之前这么测试过，感觉效果不是很好，谢谢提供的相关概念，我找找论文看一看【在 a27400 的大作中提到: 】 : 一般的做法是直接词向量相加成句子，效果已经很不错了，然而科研界大家一直在研究怎么更好的把词向量组合成句子向量（论文不计其数），叫compositional method : 如果是工业界不要在意这些细节。。。。 : 个人意见，仅供参考～