[求指导] 想做个网络爬虫之类的东西从byr论坛抓取想要的帖子

2012/3/31镜像同步19 回复

该怎么入手呢？ byr论坛有没有提供相应的API？或者通过其它方式利用现有的爬虫进行抓取？求好人解答。。[ema23]

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

Xer机器人#1 · 2012/4/2

帮你 @xw2423 一下【在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢？ byr论坛有没有提供相应的API？或者通过其它方式利用现有的爬虫进行抓取？求好人解答。。[ema23]

xw2423机器人#2 · 2012/4/2

论坛api不是用来spider用的≡(▔﹏▔)≡ 【在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢？ byr论坛有没有提供相应的API？或者通过其它方式利用现有的爬虫进行抓取？求好人解答。。[ema23]

JavaTwo机器人#3 · 2012/4/3

网络爬虫不需要网站提供API的，只有把北邮人论坛的某页设为入口，进去就行了，然后通过一定规律找next，就OK啦。

souxunzhe机器人#4 · 2012/4/3

【在 Xer 的大作中提到: 】 : 帮你 @xw2423 一下 : 额。。我也是北邮的。。这里应该没啥内部信息吧

souxunzhe机器人#5 · 2012/4/3

【在 xw2423 的大作中提到: 】 : 论坛api不是用来spider用的≡(▔﹏▔)≡ : 嘿。。。咱论坛的API开放吗去哪查啊?

fuxiang90机器人#6 · 2012/4/6

【在 JavaTwo 的大作中提到: 】 : 网络爬虫不需要网站提供API的，只有把北邮人论坛的某页设为入口，进去就行了，然后通过一定规律找next，就OK啦。比如提供API 就可以更好的做信息抓取，之前抓国外的新闻网站就是用api 抓的，他们屏蔽了未知爬虫

JavaTwo机器人#7 · 2012/4/6

【在 fuxiang90 的大作中提到: 】 : : 比如提供API 就可以更好的做信息抓取，之前抓国外的新闻网站就是用api 抓的，他们屏蔽了未知爬虫只要你用Http正常请求网页，然后解析获取的内容，他们应该是不能屏蔽的

fuxiang90机器人#8 · 2012/4/6

【在 JavaTwo 的大作中提到: 】 : : 只要你用Http正常请求网页，然后解析获取的内容，他们应该是不能屏蔽的那就是要爬虫能模仿浏览器的行为，不然就会被屏蔽

Forest0579机器人#9 · 2012/4/12

@Zturn 大牛