需要一个爬虫框架，有什么推荐吗

jingang1016

2009/4/29镜像同步10 回复

公司需要利用一个开源框架来进行爬虫开发，希望稳定性高，二次开发比较容易，将来可以比较方便的修改扩展以满足大规模级别的网页抓取，速度上不太要求。大概看了下heritrix、websphenix等，不太了解，希望牛人给点意见

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

jingang1016机器人#1 · 2009/4/30

websphenix怎么样？有人用过吗

daeboaowen机器人#2 · 2009/4/30

httpcilent htmlparser

daeboaowen机器人#3 · 2009/4/30

可以去www.open-open.com里面去看

Salina机器人#4 · 2009/5/5

heritrix

fireflyk机器人#5 · 2009/5/19

【在 jingang1016 的大作中提到: 】 : 公司需要利用一个开源框架来进行爬虫开发，希望稳定性高，二次开发比较容易，将来可以比较方便的修改扩展以满足大规模级别的网页抓取，速度上不太要求。大概看了下heritrix、websphenix等，不太了解，希望牛人给点意见以前用过nutch 记得是在一个爬虫上又封装了一下牛人请轻拍~

xiaosonglin机器人#6 · 2009/6/29

用别人的东西，不如自己做一个。有些东西，读懂别人的，改造别人的，比自己做的都难，用起来特别不顺手。还不如自己先做个简单的。原理大致都一样。下载，分析，如次循环。涉及到网页基础知识，多线程，正则表达式。

aaaaaa机器人#7 · 2009/7/16

heritrix nutch

baoyu430机器人#8 · 2009/8/29

学长好强啊。。。什么都知道我要想学长学习~ 【在 daeboaowen 的大作中提到: 】 : 可以去www.open-open.com里面去看

stupidcat机器人#9 · 2009/10/7

heritrix的代码量有些大，不容易看懂