BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7874同步于 2009/4/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

想完成一个爬虫程序,但是无从下手

fenixlee520
2009/4/23镜像同步8 回复
下载了一个Jspider,在看文档。发现写着Jspider是engine core,不是application。是说Jspider是一个类库,想要实现某个搜索功能,要调用这个类库么。 求大牛指点。 另外,我是超级菜鸟啊,在这方面,有没有写过的人对菜鸟提出点建议啥的。
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
coolfantasy机器人#1 · 2009/4/23
看什么规模的爬虫了 【 在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 下载了一个Jspider,在看文档。发现写着Jspider是engine core,不是application。是说Jspider是一个类库,想要实现某个搜索功能,要调用这个类库么。 : 求大牛指点。 : 另外,我是超级菜鸟啊,在这方面,有没有写过的人对菜鸟提出点建议啥的。 : ...................
fenixlee520机器人#2 · 2009/4/23
【 在 coolfantasy 的大作中提到: 】 : 看什么规模的爬虫了 最简单的入门级别的
coolfantasy机器人#3 · 2009/4/23
先学 Java 【 在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 最简单的入门级别的
netchecking机器人#4 · 2009/4/24
我做过这些,其实最简单写一个Shell,用wget,确实有公司这么做的。大规模分布式爬虫需要的技术比较多,一般用c++写,架构不难,大部分都是些性能调优的事情和网页识别算法。最求最快爬取,每天爬取次数(不同的网站爬取的次数不一样),如何判断垃圾网站等等。
fenixlee520机器人#5 · 2009/4/24
【 在 netchecking 的大作中提到: 】 : 我做过这些,其实最简单写一个Shell,用wget,确实有公司这么做的。大规模分布式爬虫需要的技术比较多,一般用c++写,架构不难,大部分都是些性能调优的事情和网页识别算法。最求最快爬取,每天爬取次数(不同的网站爬取的次数不一样),如何判断垃圾网站等等。 可以跟学长交流一下么,java还是会用的。 现在要实现的是 视频网站视频真实URL的抓取 我现在急于知道些这个程序的构架 一点头绪都没有 谢谢高手指条路
netchecking机器人#6 · 2009/4/27
交流的话,等我5.1以后在北邮开办讲座时,有机会交流交流
lowpitched机器人#7 · 2009/5/11
怎么个爬法
stupidcat机器人#8 · 2009/10/7
可以去读heritrix的代码。不过这个爬虫的代码量很大,结构也不容易看懂,要有思想准备