返回信息流请教下各位大牛们,我现在要做一部分工作就是在已知url情况下,解析一个网页,抽取出其中的文本内容,再进行分词处理,统计词频问题,这个大概如何下手,我查资料看是网络爬虫,它能解决这个问题吗?
ps:菜鸟在这方面没有一点基础,想用c/c++编写,望提供下方法及思路
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10741同步于 2011/9/20
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
网页内容提取和分词处理
zhoujy
2011/9/20镜像同步15 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Porter Stemmer: www.tartarus.org/~martin/PorterStemmer. A popular English word stemming algorithm developed by Martin Porter, with source code available in Perl, Python, Lisp, Java, C, and C#.
• Snowball: snowball.tartarus.org. Multilingual stemming algorithms by Martin Porter in C and Java, covering Romance, Scandinavian, Germanic languages, Russian, and Finnish.
• IGLU-Java: iglu-java.sourceforge.net. IGLU is a general-purpose Java class library implementing various data mining functions, such as the Porter
stemming algorithm, word frequency calculations, and the creation of document indexing vectors, using the popular TFIDF normalization [Sebastiani02].
lucene 也有相关工具。。。
具体哪个好,我们没试过。
很巧,我们团队最近也要干这个事情。
工作流 url->html->text->segmentation
至于中间的数据是否保存依情况定。
开源的不清楚。。我们是用自己写的
网络爬虫应该是能够将爬到的内容保存下来的,然后再遍历处理就好了。
如果要更大程度的自动化,那就改改开源爬虫,或者自己写一个好了。
具体难易程度看需求了
【 在 zzcc 的大作中提到: 】
: 工作流 url->html->text->segmentation
: 至于中间的数据是否保存依情况定。
: 开源的不清楚。。我们是用自己写的
: ...................
学长,领域相关词(Field association terms)方面,你知道有什么好的提取方法吗?
我查到的paper都是几个小日本相关人写的,实在不咋样~。
没接触过这类高端东西。。
是类似http://www.ftphp.com/scws/demo/a.php这样的东西吗?
【 在 andyfeng2011 的大作中提到: 】
:
: 【 在 zzcc 的大作中提到: 】
: : 工作流 url->html->text->segmentation
: ...................
【 在 zzcc 的大作中提到: 】
: 没接触过这类高端东西。。
: 是类似http://www.ftphp.com/scws/demo/a.php这样的东西吗?
是的。简单说,(按我理解^_^)领域相关词是哪些能代表某个领域的一些词项。
先人工标记一部分文本,然后机器学习?
【 在 andyfeng2011 的大作中提到: 】
:
: 【 在 zzcc 的大作中提到: 】
: : 没接触过这类高端东西。。
: ...................
2L正解。其实如果已知url的话并不需要网络爬虫的,一个HTTP请求下载html就可以了。
解析正文内容java有开源组件可以用,上网搜一下吧。
分词一般都用中科院的分词,java有开源程序,C++源码是限时试用的。
分了词,词频统计很容易了。
其实一个小型搜索引擎完全用到lucence、heritrix这种大家伙
PS: 百度俱乐部前年和去年已经分别用C++和java做过两个小型搜索引擎了。对搜索引擎感兴趣的同学加入呵~[em71]