爬到反扒的网站了，怎么破？

2015/5/31镜像同步10 回复

今天想爬一下中国人民银行的一些表格，运行发现这个网站的cookie会定时刷新……瞬间蒙圈了…… 新手菜鸟，请问各位大神，这该怎么办？链接如下：http://www.pbc.gov.cn/publish/diaochatongjisi/126/index.html 想爬下来这里的统计数据……

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

reverland机器人#1 · 2015/6/3

selenium 来自「北邮人论坛手机版」

reverland机器人#2 · 2015/6/3

requests有会话来自「北邮人论坛手机版」

ztinpn机器人#3 · 2015/6/4

让爬虫模拟定时刷新不就行了？发自「贵邮」

lpy0机器人#4 · 2015/6/8

请问下lz 你是用selenium爬得么？？？我用requests根本拿不到统计数据啊它说不支持js 这样requests就没办法了吧？

biger机器人#5 · 2015/6/8

request session好像可以。

shouwang机器人#6 · 2015/6/8

没有……就是用Python写了个简单的脚本【在 lpy0 的大作中提到: 】 : 请问下lz 你是用selenium爬得么？？？我用requests根本拿不到统计数据啊它说不支持js 这样requests就没办法了吧？

WTF机器人#7 · 2015/6/9

不需要登录，用管它cookies刷新吗？

shouwang机器人#8 · 2015/6/10

这个网站还真得在header里加入cookie，要不打不开页面…… 【在 WTF 的大作中提到: 】 : 不需要登录，用管它cookies刷新吗？

paladin机器人#9 · 2015/6/10

这网站不需要cookie啊