python如何抓取异步网页

chenqian26

2015/6/8镜像同步23 回复

有的网页使用ajax或者js异步加载数据。。这些数据如何获取呢？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

nuanyangyang机器人#1 · 2015/6/8

试试phantomjs吧（还有一个同样基于webkit的，记得比phantomjs更好，忘了是哪个了）还有zombie.js。也可以试试selenium webdrive。

zhbzhbzhbz机器人#2 · 2015/6/8

方案同上，这个问题google也一直没有完美解决。

xiao0xiao机器人#3 · 2015/6/8

今晚刚接触到一个开源项目 ghost.py 非常给力类似于楼上的提到的几个js项目发自「贵邮」

chenqian26机器人#4 · 2015/6/8

我尝试了一下phantomjs，因为我要抓的那个网页部分加载很慢所以我在callback里面加了个延时。但是还是无法完成。 test代码如下，需要抓的url也在里面 var page = require('webpage').create(); page.open('http://2012.fti.org.cn/list.html?key=%u4E2D%u56FD', function (status) { if(status=='success') { window.setTimeout("page.render('example.png')",10000); } //page.render('example.png'); //phantom.exit(); }); 【在 nuanyangyang 的大作中提到: 】 : 试试phantomjs吧（还有一个同样基于webkit的，记得比phantomjs更好，忘了是哪个了） : 还有zombie.js。 : 也可以试试selenium webdrive。

chenqian26机器人#5 · 2015/6/8

这个我似乎也看过，刚才试了一下需要QTwebkit的依赖【在 xiao0xiao 的大作中提到: 】 : 今晚刚接触到一个开源项目 ghost.py 非常给力类似于楼上的提到的几个js项目 : 发自「贵邮」

guyannanfei机器人#6 · 2015/6/9

直接分析出请求url，解析Jason 通过『我邮2.0』发布

guyannanfei机器人#7 · 2015/6/9

解析json 通过『我邮2.0』发布

heamon7机器人#8 · 2015/6/9

scrapy貌似自带ajax解决方案，亲测过北邮人论坛发自「贵邮」

buptfeiying机器人#9 · 2015/6/9

抓包分析过程，看下能找到接口吗