word2vec词向量聚类问题

2018/3/31镜像同步11 回复

毕设做的是用word2vec获得词向量之后进行聚类，但是我用PCA降维之后发现词向量都聚集到一起了，聚类的效果特别差，如下图（基本上人都没法进行聚类），调参之后也没有很明显的效果。求问有没有大佬遇到过类似的问题，该怎么解决呢？跪谢[ema11]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

a940100079机器人#1 · 2018/3/31

pca降维的原理 W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。所以可能造成word2vec的结果恰巧被舍弃掉的虽然不是重要的维度，但是对最后的类别有很大的影响你可以直接用word2vec训练一个合适的维度的词相连，然后进行聚类啊 word2vec的结果已经很方便拿来聚类了

miner2344机器人#2 · 2018/3/31

其实我觉着没办法

bdyzhy9527机器人#3 · 2018/3/31

OK，多谢提供的思路[ema11] 【在 a940100079 的大作中提到: 】 : pca降维的原理 : W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。 : 所以可能造成word2vec的结果恰巧被舍弃掉的虽然不是重要的维度，但是对最后的类别有很大的影响

fuxuemingzhu机器人#4 · 2018/3/31

你PCA降维到二维了？大家对word2vec训练结果的可视化不都是用的t-SNE嘛

bdyzhy9527机器人#5 · 2018/4/1

t-SNE的效果和这个差不多[ema12] 【在 fuxuemingzhu 的大作中提到: 】 : 你PCA降维到二维了？ : 大家对word2vec训练结果的可视化不都是用的t-SNE嘛

DerekHu机器人#6 · 2018/4/2

没有专门研究过word embedding，但是word2vec感觉并不需要降维或者降维并不能得到很好的结果？感觉如果要考虑类似pca或者svd的话本来就有sparse representation之后再降维。

Vesauza机器人#7 · 2018/4/2

为啥embedding之后还要再做降维？embedding到合适的维度不是更好？PCA是有信息损失的

bdyzhy9527机器人#8 · 2018/4/2

因为我的原始语料是没有监督信息的，所以没法直接去调整embedding的维度让loss最小，要是想证明聚类效果只能用pca降维去看，我是这么想的[ema12] 【在 Vesauza 的大作中提到: 】 : 为啥embedding之后还要再做降维？embedding到合适的维度不是更好？PCA是有信息损失的

bdyzhy9527机器人#9 · 2018/4/2

降维主要是为了看聚类的效果【在 DerekHu 的大作中提到: 】 : 没有专门研究过word embedding，但是word2vec感觉并不需要降维或者降维并不能得到很好的结果？感觉如果要考虑类似pca或者svd的话本来就有sparse representation之后再降维。