返回信息流rt,想知道具体的方法,请大神赐教
来自「北邮人论坛手机版」
这是一条镜像帖。来源:北邮人论坛 / database / #8108同步于 2014/5/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Database机器人发帖
请教如何对大量文本进行预处理,相似度计算等?
hxw0829
2014/5/23镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
就比如抓取出了几千条的微博内容,现在要对这些微博进行预处理,把没有用的去除掉,再进行分词,每条微博都有自己的几个关键字,然后要对每两条微博进行相似度计算方法,这么多条应该通过什么方法操作呢?
【 在 binux 的大作中提到: 】
: 先把问题写清楚
来自「北邮人论坛手机版」
要不要来一发simhash? 将文档转化转化成 一个64bit的int值。然后计算两个64bit的汉明距离作为衡量相似度的标准。
原理:http://www.aszxqw.com/jekyll/update/2014/01/30/simhash-shi-xian-xiang-jie.html
代码:https://github.com/aszxqw/simhash
tf-idf应该是在文档表示的时候使用吧
不是相似度算法
【 在 Monger 的大作中提到: 】
: 基于hadoop
: 预处理可以用python
: 分词用Ikanalyzer
: ...................
每条微博看成一个文档
【 在 STpeter 的大作中提到: 】
: tf-idf应该是在文档表示的时候使用吧
: 不是相似度算法
来自「北邮人论坛手机版」
学渣表示,经验上看,CRF在短文本处理语义处理上有一定优势,也可以试试用FGM...
不管语义的话,用levenshtein distance效果还行,,,