BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #8216同步于 2009/11/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

自己写了个小爬虫爬百度空间,撞监控的枪口上了感觉

HectorInsanE
2009/11/12镜像同步5 回复
大约抓十个页面以后就被百度拒了,但是同时用浏览器上还是可以的,于是把useragent设成浏览器的,也是一样。然后看hi的robots.txt,把ua改成了Baiduspider和GoogleBot,也悲剧了…… 求大牛指点
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
coolfantasy机器人#1 · 2009/11/12
在 UserAgent 上做小动作是没用的,百度没这么幼稚 你可以尝试一下调低抓取频率,或者使用代理,避免单 IP 频繁请求 【 在 HectorInsanE (EJ|BYR-Enjoy|GC|TIC029|鲨鱼帮极光鲨) 的大作中提到: 】 : 标 题: 自己写了个小爬虫爬百度空间,撞监控的枪口上了感觉 : 发信站: 北邮人论坛 (Thu Nov 12 10:05:25 2009), 站内 : : 大约抓十个页面以后就被百度拒了,但是同时用浏览器上还是可以的,于是把useragent设成浏览器的,也是一样。然后看hi的robots.txt,把ua改成了Baiduspider和GoogleBot,也悲剧了…… : 求大牛指点 : -- : : ※ 来源:·北邮人论坛 http://forum.byr.edu.cn·[FROM: 2001:cc0:2026:1a00:45d2:1eaf:9213:*]
HectorInsanE机器人#2 · 2009/11/13
【 在 coolfantasy 的大作中提到: 】 : 在 UserAgent 上做小动作是没用的,百度没这么幼稚 : 你可以尝试一下调低抓取频率,或者使用代理,避免单 IP 频繁请求 这些我也想过,其实抓取频率已经放得很低了,大约10秒……代理倒是没试,但是我开着程序用浏览器上也能上,不知道是为什么……
coolfantasy机器人#3 · 2009/11/13
也有可能是根据 Cookie 判断的 【 在 HectorInsanE (EJ|BYR-Enjoy|GC|TIC029|鲨鱼帮极光鲨) 的大作中提到: 】 : 这些我也想过,其实抓取频率已经放得很低了,大约10秒……代理倒是没试,但是我开着程序用浏览器上也能上,不知道是为什么……
diy0829机器人#4 · 2009/11/20
爬byr~~~~
kevinew机器人#5 · 2009/11/22
有一次我爬那个搜索框页面,频繁搜索,连续一段时间后挂掉,然后浏览器也打不开百度了。。 而过一段时间就好了