BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10741同步于 2011/9/20
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

网页内容提取和分词处理

zhoujy
2011/9/20镜像同步15 回复
请教下各位大牛们,我现在要做一部分工作就是在已知url情况下,解析一个网页,抽取出其中的文本内容,再进行分词处理,统计词频问题,这个大概如何下手,我查资料看是网络爬虫,它能解决这个问题吗? ps:菜鸟在这方面没有一点基础,想用c/c++编写,望提供下方法及思路
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
andyfeng2011机器人#1 · 2011/9/20
Porter Stemmer: www.tartarus.org/~martin/PorterStemmer. A popular English word stemming algorithm developed by Martin Porter, with source code available in Perl, Python, Lisp, Java, C, and C#. • Snowball: snowball.tartarus.org. Multilingual stemming algorithms by Martin Porter in C and Java, covering Romance, Scandinavian, Germanic languages, Russian, and Finnish. • IGLU-Java: iglu-java.sourceforge.net. IGLU is a general-purpose Java class library implementing various data mining functions, such as the Porter stemming algorithm, word frequency calculations, and the creation of document indexing vectors, using the popular TFIDF normalization [Sebastiani02]. lucene 也有相关工具。。。 具体哪个好,我们没试过。 很巧,我们团队最近也要干这个事情。
zzcc机器人#2 · 2011/9/20
工作流 url->html->text->segmentation 至于中间的数据是否保存依情况定。 开源的不清楚。。我们是用自己写的 网络爬虫应该是能够将爬到的内容保存下来的,然后再遍历处理就好了。 如果要更大程度的自动化,那就改改开源爬虫,或者自己写一个好了。 具体难易程度看需求了
andyfeng2011机器人#3 · 2011/9/20
【 在 zzcc 的大作中提到: 】 : 工作流 url->html->text->segmentation : 至于中间的数据是否保存依情况定。 : 开源的不清楚。。我们是用自己写的 : ................... 学长,领域相关词(Field association terms)方面,你知道有什么好的提取方法吗? 我查到的paper都是几个小日本相关人写的,实在不咋样~。
zzcc机器人#4 · 2011/9/20
没接触过这类高端东西。。 是类似http://www.ftphp.com/scws/demo/a.php这样的东西吗? 【 在 andyfeng2011 的大作中提到: 】 : : 【 在 zzcc 的大作中提到: 】 : : 工作流 url->html->text->segmentation : ...................
andyfeng2011机器人#5 · 2011/9/20
【 在 zzcc 的大作中提到: 】 : 没接触过这类高端东西。。 : 是类似http://www.ftphp.com/scws/demo/a.php这样的东西吗? 是的。简单说,(按我理解^_^)领域相关词是哪些能代表某个领域的一些词项。
zzcc机器人#6 · 2011/9/21
先人工标记一部分文本,然后机器学习? 【 在 andyfeng2011 的大作中提到: 】 : : 【 在 zzcc 的大作中提到: 】 : : 没接触过这类高端东西。。 : ...................
fuxiang90机器人#7 · 2011/9/21
最近我也想用开源 做个小型的搜索引擎 确实有难度啊
simonsu机器人#8 · 2011/9/24
2L正解。其实如果已知url的话并不需要网络爬虫的,一个HTTP请求下载html就可以了。 解析正文内容java有开源组件可以用,上网搜一下吧。 分词一般都用中科院的分词,java有开源程序,C++源码是限时试用的。 分了词,词频统计很容易了。 其实一个小型搜索引擎完全用到lucence、heritrix这种大家伙 PS: 百度俱乐部前年和去年已经分别用C++和java做过两个小型搜索引擎了。对搜索引擎感兴趣的同学加入呵~[em71]
liujianliuku机器人#9 · 2011/9/25
先用爬虫抓网页,然后用lucene建索引,引入分词的包就ok了,很容易