返回信息流大约抓十个页面以后就被百度拒了,但是同时用浏览器上还是可以的,于是把useragent设成浏览器的,也是一样。然后看hi的robots.txt,把ua改成了Baiduspider和GoogleBot,也悲剧了……
求大牛指点
这是一条镜像帖。来源:北邮人论坛 / search-engine / #8216同步于 2009/11/12
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
自己写了个小爬虫爬百度空间,撞监控的枪口上了感觉
HectorInsanE
2009/11/12镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
在 UserAgent 上做小动作是没用的,百度没这么幼稚
你可以尝试一下调低抓取频率,或者使用代理,避免单 IP 频繁请求
【 在 HectorInsanE (EJ|BYR-Enjoy|GC|TIC029|鲨鱼帮极光鲨) 的大作中提到: 】
: 标 题: 自己写了个小爬虫爬百度空间,撞监控的枪口上了感觉
: 发信站: 北邮人论坛 (Thu Nov 12 10:05:25 2009), 站内
:
: 大约抓十个页面以后就被百度拒了,但是同时用浏览器上还是可以的,于是把useragent设成浏览器的,也是一样。然后看hi的robots.txt,把ua改成了Baiduspider和GoogleBot,也悲剧了……
: 求大牛指点
: --
:
: ※ 来源:·北邮人论坛 http://forum.byr.edu.cn·[FROM: 2001:cc0:2026:1a00:45d2:1eaf:9213:*]
【 在 coolfantasy 的大作中提到: 】
: 在 UserAgent 上做小动作是没用的,百度没这么幼稚
: 你可以尝试一下调低抓取频率,或者使用代理,避免单 IP 频繁请求
这些我也想过,其实抓取频率已经放得很低了,大约10秒……代理倒是没试,但是我开着程序用浏览器上也能上,不知道是为什么……
也有可能是根据 Cookie 判断的
【 在 HectorInsanE (EJ|BYR-Enjoy|GC|TIC029|鲨鱼帮极光鲨) 的大作中提到: 】
: 这些我也想过,其实抓取频率已经放得很低了,大约10秒……代理倒是没试,但是我开着程序用浏览器上也能上,不知道是为什么……