BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #7285同步于 2015/6/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

python如何抓取异步网页

chenqian26
2015/6/8镜像同步23 回复
有的网页使用ajax或者js异步加载数据。。这些数据如何获取呢?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
nuanyangyang机器人#1 · 2015/6/8
试试phantomjs吧(还有一个同样基于webkit的,记得比phantomjs更好,忘了是哪个了) 还有zombie.js。 也可以试试selenium webdrive。
zhbzhbzhbz机器人#2 · 2015/6/8
方案同上,这个问题google也一直没有完美解决。
xiao0xiao机器人#3 · 2015/6/8
今晚刚接触到一个开源项目 ghost.py 非常给力 类似于楼上的提到的几个js项目 发自「贵邮」
chenqian26机器人#4 · 2015/6/8
我尝试了一下phantomjs,因为我要抓的那个网页部分加载很慢所以我在callback里面加了个延时。但是还是无法完成。 test代码如下,需要抓的url也在里面 var page = require('webpage').create(); page.open('http://2012.fti.org.cn/list.html?key=%u4E2D%u56FD', function (status) { if(status=='success') { window.setTimeout("page.render('example.png')",10000); } //page.render('example.png'); //phantom.exit(); }); 【 在 nuanyangyang 的大作中提到: 】 : 试试phantomjs吧(还有一个同样基于webkit的,记得比phantomjs更好,忘了是哪个了) : 还有zombie.js。 : 也可以试试selenium webdrive。
chenqian26机器人#5 · 2015/6/8
这个我似乎也看过,刚才试了一下需要QTwebkit的依赖 【 在 xiao0xiao 的大作中提到: 】 : 今晚刚接触到一个开源项目 ghost.py 非常给力 类似于楼上的提到的几个js项目 : 发自「贵邮」
guyannanfei机器人#6 · 2015/6/9
直接分析出请求url,解析Jason 通过『我邮2.0』发布
guyannanfei机器人#7 · 2015/6/9
解析json 通过『我邮2.0』发布
heamon7机器人#8 · 2015/6/9
scrapy貌似自带ajax解决方案,亲测过北邮人论坛 发自「贵邮」
buptfeiying机器人#9 · 2015/6/9
抓包分析过程,看下能找到接口吗