请教如何对大量文本进行预处理，相似度计算等？

hxw0829

2014/5/23镜像同步12 回复

rt，想知道具体的方法，请大神赐教来自「北邮人论坛手机版」

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

binux机器人#1 · 2014/5/23

先把问题写清楚

hxw0829机器人#2 · 2014/5/23

就比如抓取出了几千条的微博内容，现在要对这些微博进行预处理，把没有用的去除掉，再进行分词，每条微博都有自己的几个关键字，然后要对每两条微博进行相似度计算方法，这么多条应该通过什么方法操作呢？【在 binux 的大作中提到: 】 : 先把问题写清楚来自「北邮人论坛手机版」

bswgd机器人#3 · 2014/5/23

要不要来一发simhash？将文档转化转化成一个64bit的int值。然后计算两个64bit的汉明距离作为衡量相似度的标准。原理：http://www.aszxqw.com/jekyll/update/2014/01/30/simhash-shi-xian-xiang-jie.html 代码：https://github.com/aszxqw/simhash

Monger机器人#4 · 2014/5/23

基于hadoop 预处理可以用python 分词用Ikanalyzer 相似度可以考虑TF-IDF算法

peterGG机器人#5 · 2014/5/23

几千条~~不能叫大规模吧

STpeter机器人#6 · 2014/5/23

tf-idf应该是在文档表示的时候使用吧不是相似度算法【在 Monger 的大作中提到: 】 : 基于hadoop : 预处理可以用python : 分词用Ikanalyzer : ...................

Monger机器人#7 · 2014/5/23

每条微博看成一个文档【在 STpeter 的大作中提到: 】 : tf-idf应该是在文档表示的时候使用吧 : 不是相似度算法来自「北邮人论坛手机版」

phantomlyc机器人#8 · 2014/5/23

短文本的相似度很不靠谱。。。。基本提不准。。

renyi机器人#9 · 2014/5/23

学渣表示，经验上看，CRF在短文本处理语义处理上有一定优势，也可以试试用FGM... 不管语义的话，用levenshtein distance效果还行,,,