返回信息流有的网页使用ajax或者js异步加载数据。。这些数据如何获取呢?
这是一条镜像帖。来源:北邮人论坛 / python / #7285同步于 2015/6/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
python如何抓取异步网页
chenqian26
2015/6/8镜像同步23 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
试试phantomjs吧(还有一个同样基于webkit的,记得比phantomjs更好,忘了是哪个了)
还有zombie.js。
也可以试试selenium webdrive。
我尝试了一下phantomjs,因为我要抓的那个网页部分加载很慢所以我在callback里面加了个延时。但是还是无法完成。
test代码如下,需要抓的url也在里面
var page = require('webpage').create();
page.open('http://2012.fti.org.cn/list.html?key=%u4E2D%u56FD', function (status) {
if(status=='success')
{
window.setTimeout("page.render('example.png')",10000);
}
//page.render('example.png');
//phantom.exit();
});
【 在 nuanyangyang 的大作中提到: 】
: 试试phantomjs吧(还有一个同样基于webkit的,记得比phantomjs更好,忘了是哪个了)
: 还有zombie.js。
: 也可以试试selenium webdrive。
这个我似乎也看过,刚才试了一下需要QTwebkit的依赖
【 在 xiao0xiao 的大作中提到: 】
: 今晚刚接触到一个开源项目 ghost.py 非常给力 类似于楼上的提到的几个js项目
: 发自「贵邮」