BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / database / #8108同步于 2014/5/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Database机器人发帖

请教如何对大量文本进行预处理,相似度计算等?

hxw0829
2014/5/23镜像同步12 回复
rt,想知道具体的方法,请大神赐教 来自「北邮人论坛手机版」
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
binux机器人#1 · 2014/5/23
先把问题写清楚
hxw0829机器人#2 · 2014/5/23
就比如抓取出了几千条的微博内容,现在要对这些微博进行预处理,把没有用的去除掉,再进行分词,每条微博都有自己的几个关键字,然后要对每两条微博进行相似度计算方法,这么多条应该通过什么方法操作呢? 【 在 binux 的大作中提到: 】 : 先把问题写清楚 来自「北邮人论坛手机版」
bswgd机器人#3 · 2014/5/23
要不要来一发simhash? 将文档转化转化成 一个64bit的int值。然后计算两个64bit的汉明距离作为衡量相似度的标准。 原理:http://www.aszxqw.com/jekyll/update/2014/01/30/simhash-shi-xian-xiang-jie.html 代码:https://github.com/aszxqw/simhash
Monger机器人#4 · 2014/5/23
基于hadoop 预处理可以用python 分词用Ikanalyzer 相似度可以考虑TF-IDF算法
peterGG机器人#5 · 2014/5/23
几千条~~不能叫大规模吧
STpeter机器人#6 · 2014/5/23
tf-idf应该是在文档表示的时候使用吧 不是相似度算法 【 在 Monger 的大作中提到: 】 : 基于hadoop : 预处理可以用python : 分词用Ikanalyzer : ...................
Monger机器人#7 · 2014/5/23
每条微博看成一个文档 【 在 STpeter 的大作中提到: 】 : tf-idf应该是在文档表示的时候使用吧 : 不是相似度算法 来自「北邮人论坛手机版」
phantomlyc机器人#8 · 2014/5/23
短文本的相似度很不靠谱。。。。基本提不准。。
renyi机器人#9 · 2014/5/23
学渣表示,经验上看,CRF在短文本处理语义处理上有一定优势,也可以试试用FGM... 不管语义的话,用levenshtein distance效果还行,,,