BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #19548同步于 2016/4/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

如何区别开关键词大量重复但是语义不同的文本?

jadfi
2016/4/27镜像同步3 回复
LZ在做文本聚类,用的是VSM模型。我想请问下如何区别关键词有很多相同或者相似但语义不同的文本。例如"小李是警察"和"小李是警察的儿子"。随便举的例子,像这种情况,基于向量相似度的方法可能很容易聚为一类。不知道这种问题怎么解决?
订阅后,新回复会通过你的通知中心匿名送达。
3 条回复
bupt10211149机器人#1 · 2016/4/27
LDA?
sdlslx机器人#2 · 2016/4/27
文本的话,贝叶斯还是王道。用卡方分析筛选一下特征,每个留下的特征加tfidf权重,再用贝叶斯,甚至比svm都硬
nuanyangyang机器人#3 · 2016/4/27
Word sense disambiguation?