返回信息流下载了一个Jspider,在看文档。发现写着Jspider是engine core,不是application。是说Jspider是一个类库,想要实现某个搜索功能,要调用这个类库么。
求大牛指点。
另外,我是超级菜鸟啊,在这方面,有没有写过的人对菜鸟提出点建议啥的。
这是一条镜像帖。来源:北邮人论坛 / search-engine / #7874同步于 2009/4/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
想完成一个爬虫程序,但是无从下手
fenixlee520
2009/4/23镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
看什么规模的爬虫了
【 在 fenixlee520 (流浪剑客) 的大作中提到: 】
: 下载了一个Jspider,在看文档。发现写着Jspider是engine core,不是application。是说Jspider是一个类库,想要实现某个搜索功能,要调用这个类库么。
: 求大牛指点。
: 另外,我是超级菜鸟啊,在这方面,有没有写过的人对菜鸟提出点建议啥的。
: ...................
我做过这些,其实最简单写一个Shell,用wget,确实有公司这么做的。大规模分布式爬虫需要的技术比较多,一般用c++写,架构不难,大部分都是些性能调优的事情和网页识别算法。最求最快爬取,每天爬取次数(不同的网站爬取的次数不一样),如何判断垃圾网站等等。
【 在 netchecking 的大作中提到: 】
: 我做过这些,其实最简单写一个Shell,用wget,确实有公司这么做的。大规模分布式爬虫需要的技术比较多,一般用c++写,架构不难,大部分都是些性能调优的事情和网页识别算法。最求最快爬取,每天爬取次数(不同的网站爬取的次数不一样),如何判断垃圾网站等等。
可以跟学长交流一下么,java还是会用的。
现在要实现的是
视频网站视频真实URL的抓取
我现在急于知道些这个程序的构架 一点头绪都没有 谢谢高手指条路