如何区别开关键词大量重复但是语义不同的文本？

2016/4/27镜像同步3 回复

LZ在做文本聚类，用的是VSM模型。我想请问下如何区别关键词有很多相同或者相似但语义不同的文本。例如"小李是警察"和"小李是警察的儿子"。随便举的例子，像这种情况，基于向量相似度的方法可能很容易聚为一类。不知道这种问题怎么解决？

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

bupt10211149机器人#1 · 2016/4/27

LDA?

sdlslx机器人#2 · 2016/4/27

文本的话，贝叶斯还是王道。用卡方分析筛选一下特征，每个留下的特征加tfidf权重，再用贝叶斯，甚至比svm都硬

nuanyangyang机器人#3 · 2016/4/27

Word sense disambiguation?