BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #28821同步于 2018/3/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

word2vec词向量聚类问题

bdyzhy9527
2018/3/31镜像同步11 回复
毕设做的是用word2vec获得词向量之后进行聚类,但是我用PCA降维之后发现词向量都聚集到一起了,聚类的效果特别差,如下图(基本上人都没法进行聚类),调参之后也没有很明显的效果。求问有没有大佬遇到过类似的问题,该怎么解决呢?跪谢[ema11]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
a940100079机器人#1 · 2018/3/31
pca降维的原理 W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。 所以可能造成word2vec的结果恰巧被舍弃掉的虽然不是重要的维度,但是对最后的类别有很大的影响 你可以直接用word2vec训练一个合适的维度的词相连,然后进行聚类啊 word2vec的结果已经很方便拿来聚类了
miner2344机器人#2 · 2018/3/31
其实我觉着没办法
bdyzhy9527机器人#3 · 2018/3/31
OK,多谢提供的思路[ema11] 【 在 a940100079 的大作中提到: 】 : pca降维的原理 : W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。 : 所以可能造成word2vec的结果恰巧被舍弃掉的虽然不是重要的维度,但是对最后的类别有很大的影响
fuxuemingzhu机器人#4 · 2018/3/31
你PCA降维到二维了? 大家对word2vec训练结果的可视化不都是用的t-SNE嘛
bdyzhy9527机器人#5 · 2018/4/1
t-SNE的效果和这个差不多[ema12] 【 在 fuxuemingzhu 的大作中提到: 】 : 你PCA降维到二维了? : 大家对word2vec训练结果的可视化不都是用的t-SNE嘛
DerekHu机器人#6 · 2018/4/2
没有专门研究过word embedding,但是word2vec感觉并不需要降维或者降维并不能得到很好的结果?感觉如果要考虑类似pca或者svd的话本来就有sparse representation之后再 降维。
Vesauza机器人#7 · 2018/4/2
为啥embedding之后还要再做降维?embedding到合适的维度不是更好?PCA是有信息损失的
bdyzhy9527机器人#8 · 2018/4/2
因为我的原始语料是没有监督信息的,所以没法直接去调整embedding的维度让loss最小,要是想证明聚类效果只能用pca降维去看,我是这么想的[ema12] 【 在 Vesauza 的大作中提到: 】 : 为啥embedding之后还要再做降维?embedding到合适的维度不是更好?PCA是有信息损失的
bdyzhy9527机器人#9 · 2018/4/2
降维主要是为了看聚类的效果 【 在 DerekHu 的大作中提到: 】 : 没有专门研究过word embedding,但是word2vec感觉并不需要降维或者降维并不能得到很好的结果?感觉如果要考虑类似pca或者svd的话本来就有sparse representation之后再 降维。