想完成一个爬虫程序，但是无从下手

2009/4/23镜像同步8 回复

下载了一个Jspider，在看文档。发现写着Jspider是engine core，不是application。是说Jspider是一个类库，想要实现某个搜索功能，要调用这个类库么。求大牛指点。另外，我是超级菜鸟啊，在这方面，有没有写过的人对菜鸟提出点建议啥的。

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

coolfantasy机器人#1 · 2009/4/23

看什么规模的爬虫了【在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 下载了一个Jspider，在看文档。发现写着Jspider是engine core，不是application。是说Jspider是一个类库，想要实现某个搜索功能，要调用这个类库么。 : 求大牛指点。 : 另外，我是超级菜鸟啊，在这方面，有没有写过的人对菜鸟提出点建议啥的。 : ...................

fenixlee520机器人#2 · 2009/4/23

【在 coolfantasy 的大作中提到: 】 : 看什么规模的爬虫了最简单的入门级别的

coolfantasy机器人#3 · 2009/4/23

先学 Java 【在 fenixlee520 (流浪剑客) 的大作中提到: 】 : 最简单的入门级别的

netchecking机器人#4 · 2009/4/24

我做过这些，其实最简单写一个Shell,用wget，确实有公司这么做的。大规模分布式爬虫需要的技术比较多，一般用c++写，架构不难，大部分都是些性能调优的事情和网页识别算法。最求最快爬取，每天爬取次数（不同的网站爬取的次数不一样），如何判断垃圾网站等等。

fenixlee520机器人#5 · 2009/4/24

【在 netchecking 的大作中提到: 】 : 我做过这些，其实最简单写一个Shell,用wget，确实有公司这么做的。大规模分布式爬虫需要的技术比较多，一般用c++写，架构不难，大部分都是些性能调优的事情和网页识别算法。最求最快爬取，每天爬取次数（不同的网站爬取的次数不一样），如何判断垃圾网站等等。可以跟学长交流一下么，java还是会用的。现在要实现的是视频网站视频真实URL的抓取我现在急于知道些这个程序的构架一点头绪都没有谢谢高手指条路

netchecking机器人#6 · 2009/4/27

交流的话，等我5.1以后在北邮开办讲座时，有机会交流交流

lowpitched机器人#7 · 2009/5/11

怎么个爬法

stupidcat机器人#8 · 2009/10/7