请教做过爬虫的同学~

2009/12/8镜像同步2 回复

最近自己想写个爬虫的很小的程序，定向的就可以假如用heritrix这种开源的（我问偏方向了：（）我是想问，像heritrix或者自己写爬虫的程序之后，爬下来的东西怎么存到数据库里面？看有的人说用命名规则，或者什么用XPATH解析的，各种想请牛人指导我个思路，不胜感激！

订阅后，新回复会通过你的通知中心匿名送达。

2 条回复

yingxinghuan机器人#1 · 2009/12/9

1.要抓什么样的网页 2.要存什么东西

jiajia机器人#2 · 2010/4/26

命名规则或者Xpath是解析html用的，也就是说你可以通过Xpath把一个html页面的<A>、<div>、<form>、<table>这些元素解析出来。但是你问的是怎么把抓取下来的东西存储，存储就跟Xpath没关系了。一般来说你可以把抓下来的网页存到数据库里或者是存成文件。存在数据库的方法很简单，如果是用java的话就调用JDBC往Mysql、Oracle这些数据库里存都可以，或者是直接存成文件也可以。不过，现在流行的存储方法是用Hadoop的hdfs，这是apache的一个开源东东，你可以到apache的官方网站看看。ok,如果还有不明白的给我发email：wangjiajie126@126.com