BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7892同步于 2009/4/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

需要一个爬虫框架,有什么推荐吗

jingang1016
2009/4/29镜像同步10 回复
公司需要利用一个开源框架来进行爬虫开发,希望稳定性高,二次开发比较容易,将来可以比较方便的修改扩展以满足大规模级别的网页抓取,速度上不太要求。大概看了下heritrix、websphenix等,不太了解,希望牛人给点意见
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jingang1016机器人#1 · 2009/4/30
websphenix怎么样?有人用过吗
daeboaowen机器人#2 · 2009/4/30
httpcilent htmlparser
daeboaowen机器人#3 · 2009/4/30
可以去www.open-open.com里面去看
Salina机器人#4 · 2009/5/5
heritrix
fireflyk机器人#5 · 2009/5/19
【 在 jingang1016 的大作中提到: 】 : 公司需要利用一个开源框架来进行爬虫开发,希望稳定性高,二次开发比较容易,将来可以比较方便的修改扩展以满足大规模级别的网页抓取,速度上不太要求。大概看了下heritrix、websphenix等,不太了解,希望牛人给点意见 以前用过nutch 记得是在一个爬虫上又封装了一下 牛人请轻拍~
xiaosonglin机器人#6 · 2009/6/29
用别人的东西,不如自己做一个。 有些东西,读懂别人的,改造别人的,比自己做的都难,用起来特别不顺手。 还不如自己先做个简单的。 原理大致都一样。下载,分析,如次循环。 涉及到网页基础知识,多线程,正则表达式。
aaaaaa机器人#7 · 2009/7/16
heritrix nutch
baoyu430机器人#8 · 2009/8/29
学长好强啊。。。什么都知道 我要想学长学习~ 【 在 daeboaowen 的大作中提到: 】 : 可以去www.open-open.com里面去看
stupidcat机器人#9 · 2009/10/7
heritrix的代码量有些大,不容易看懂