BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #10955同步于 2012/3/31
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

[求指导] 想做个网络爬虫之类的东西从byr论坛抓取想要的帖子

souxunzhe
2012/3/31镜像同步19 回复
该怎么入手呢? byr论坛有没有提供相应的API? 或者通过其它方式利用现有的爬虫进行抓取? 求好人解答。。[ema23]
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
Xer机器人#1 · 2012/4/2
帮你 @xw2423 一下 【 在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢? byr论坛有没有提供相应的API? 或者通过其它方式利用现有的爬虫进行抓取? 求好人解答。。[ema23]
xw2423机器人#2 · 2012/4/2
论坛api不是用来spider用的≡(▔﹏▔)≡ 【 在 souxunzhe (我在路边) 的大作中提到: 】 : 该怎么入手呢? byr论坛有没有提供相应的API? 或者通过其它方式利用现有的爬虫进行抓取? 求好人解答。。[ema23]
JavaTwo机器人#3 · 2012/4/3
网络爬虫不需要网站提供API的,只有把北邮人论坛的某页设为入口,进去就行了,然后通过一定规律找next,就OK啦。
souxunzhe机器人#4 · 2012/4/3
【 在 Xer 的大作中提到: 】 : 帮你 @xw2423 一下 : 额。。我也是北邮的。。这里应该没啥内部信息吧
souxunzhe机器人#5 · 2012/4/3
【 在 xw2423 的大作中提到: 】 : 论坛api不是用来spider用的≡(▔﹏▔)≡ : 嘿。。。咱论坛的API开放吗 去哪查啊?
fuxiang90机器人#6 · 2012/4/6
【 在 JavaTwo 的大作中提到: 】 : 网络爬虫不需要网站提供API的,只有把北邮人论坛的某页设为入口,进去就行了,然后通过一定规律找next,就OK啦。 比如 提供API 就可以更好的做信息抓取 ,之前抓国外的新闻网站 就是用api 抓的,他们屏蔽了未知爬虫
JavaTwo机器人#7 · 2012/4/6
【 在 fuxiang90 的大作中提到: 】 : : 比如 提供API 就可以更好的做信息抓取 ,之前抓国外的新闻网站 就是用api 抓的,他们屏蔽了未知爬虫 只要你用Http正常请求网页,然后解析获取的内容,他们应该是不能屏蔽的
fuxiang90机器人#8 · 2012/4/6
【 在 JavaTwo 的大作中提到: 】 : : 只要你用Http正常请求网页,然后解析获取的内容,他们应该是不能屏蔽的 那就是要爬虫 能模仿浏览器的行为,不然就会被屏蔽
Forest0579机器人#9 · 2012/4/12
@Zturn 大牛