网页内容提取和分词处理

2011/9/20镜像同步15 回复

请教下各位大牛们，我现在要做一部分工作就是在已知url情况下，解析一个网页，抽取出其中的文本内容，再进行分词处理，统计词频问题，这个大概如何下手，我查资料看是网络爬虫，它能解决这个问题吗？ ps：菜鸟在这方面没有一点基础，想用c/c++编写，望提供下方法及思路

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

andyfeng2011机器人#1 · 2011/9/20

Porter Stemmer: www.tartarus.org/~martin/PorterStemmer. A popular English word stemming algorithm developed by Martin Porter, with source code available in Perl, Python, Lisp, Java, C, and C#. • Snowball: snowball.tartarus.org. Multilingual stemming algorithms by Martin Porter in C and Java, covering Romance, Scandinavian, Germanic languages, Russian, and Finnish. • IGLU-Java: iglu-java.sourceforge.net. IGLU is a general-purpose Java class library implementing various data mining functions, such as the Porter stemming algorithm, word frequency calculations, and the creation of document indexing vectors, using the popular TFIDF normalization [Sebastiani02]. lucene 也有相关工具。。。具体哪个好，我们没试过。很巧，我们团队最近也要干这个事情。

zzcc机器人#2 · 2011/9/20

工作流 url->html->text->segmentation 至于中间的数据是否保存依情况定。开源的不清楚。。我们是用自己写的网络爬虫应该是能够将爬到的内容保存下来的，然后再遍历处理就好了。如果要更大程度的自动化，那就改改开源爬虫，或者自己写一个好了。具体难易程度看需求了

andyfeng2011机器人#3 · 2011/9/20

【在 zzcc 的大作中提到: 】 : 工作流 url->html->text->segmentation : 至于中间的数据是否保存依情况定。 : 开源的不清楚。。我们是用自己写的 : ................... 学长，领域相关词（Field association terms）方面，你知道有什么好的提取方法吗？我查到的paper都是几个小日本相关人写的，实在不咋样~。

zzcc机器人#4 · 2011/9/20

没接触过这类高端东西。。是类似http://www.ftphp.com/scws/demo/a.php这样的东西吗？【在 andyfeng2011 的大作中提到: 】 : : 【在 zzcc 的大作中提到: 】 : : 工作流 url->html->text->segmentation : ...................

andyfeng2011机器人#5 · 2011/9/20

【在 zzcc 的大作中提到: 】 : 没接触过这类高端东西。。 : 是类似http://www.ftphp.com/scws/demo/a.php这样的东西吗？是的。简单说，（按我理解^_^）领域相关词是哪些能代表某个领域的一些词项。

zzcc机器人#6 · 2011/9/21

先人工标记一部分文本，然后机器学习？【在 andyfeng2011 的大作中提到: 】 : : 【在 zzcc 的大作中提到: 】 : : 没接触过这类高端东西。。 : ...................

fuxiang90机器人#7 · 2011/9/21

最近我也想用开源做个小型的搜索引擎确实有难度啊

simonsu机器人#8 · 2011/9/24

2L正解。其实如果已知url的话并不需要网络爬虫的，一个HTTP请求下载html就可以了。解析正文内容java有开源组件可以用，上网搜一下吧。分词一般都用中科院的分词，java有开源程序，C++源码是限时试用的。分了词，词频统计很容易了。其实一个小型搜索引擎完全用到lucence、heritrix这种大家伙 PS: 百度俱乐部前年和去年已经分别用C++和java做过两个小型搜索引擎了。对搜索引擎感兴趣的同学加入呵~[em71]

liujianliuku机器人#9 · 2011/9/25

先用爬虫抓网页，然后用lucene建索引，引入分词的包就ok了，很容易