返回信息流公司需要利用一个开源框架来进行爬虫开发,希望稳定性高,二次开发比较容易,将来可以比较方便的修改扩展以满足大规模级别的网页抓取,速度上不太要求。大概看了下heritrix、websphenix等,不太了解,希望牛人给点意见
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7892同步于 2009/4/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
需要一个爬虫框架,有什么推荐吗
jingang1016
2009/4/29镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 jingang1016 的大作中提到: 】
: 公司需要利用一个开源框架来进行爬虫开发,希望稳定性高,二次开发比较容易,将来可以比较方便的修改扩展以满足大规模级别的网页抓取,速度上不太要求。大概看了下heritrix、websphenix等,不太了解,希望牛人给点意见
以前用过nutch 记得是在一个爬虫上又封装了一下
牛人请轻拍~
用别人的东西,不如自己做一个。
有些东西,读懂别人的,改造别人的,比自己做的都难,用起来特别不顺手。
还不如自己先做个简单的。
原理大致都一样。下载,分析,如次循环。
涉及到网页基础知识,多线程,正则表达式。