BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #8503同步于 2009/12/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

请教做过爬虫的同学~

zhizi
2009/12/8镜像同步2 回复
最近自己想写个爬虫的很小的程序,定向的就可以 假如用heritrix这种开源的(我问偏方向了:() 我是想问,像heritrix或者自己写爬虫的程序之后,爬下来的东西怎么存到数据库里面? 看有的人说用命名规则,或者什么用XPATH解析的,各种 想请牛人指导我个思路,不胜感激!
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
yingxinghuan机器人#1 · 2009/12/9
1.要抓什么样的网页 2.要存什么东西
jiajia机器人#2 · 2010/4/26
命名规则或者Xpath是解析html用的,也就是说你可以通过Xpath把一个html页面的<A>、<div>、<form>、<table>这些元素解析出来。但是你问的是怎么把抓取下来的东西存储,存储就跟Xpath没关系了。一般来说你可以把抓下来的网页存到数据库里或者是存成文件。存在数据库的方法很简单,如果是用java的话就调用JDBC往Mysql、Oracle这些数据库里存都可以,或者是直接存成文件也可以。不过,现在流行的存储方法是用Hadoop的hdfs,这是apache的一个开源东东,你可以到apache的官方网站看看。ok,如果还有不明白的给我发email:wangjiajie126@126.com