返回信息流各位论坛的大大们= =在写爬虫的时候遇到一些问题,实在没有头绪,真心求助各位~先说一下我的一点小思路。。
1、要爬的网站的特点是通过ajax加载的内容很多,而且在network中查看XHR对象也没有东西,所以应该是通过跨域jsonp访问的吧?
2、通过抓包工具挨个查请求的文件,大致定位到了一个请求,查看的它的response发现是像乱码的东西。。感觉应该是j s文件混淆压缩的吧= =如图~
3、基于以上两点大概放弃了模拟http请求解析response的方法,想尝试phantomJS+selenium模拟浏览器操作的方法,但发现wait不到ajax完全加载后的页面,因为总也find不到我要点击的那个下拉框。。(这个下拉框貌似也是异步加载出来的,因为source源码中没有这个元素)比较奇怪的是之前用这种方法是可以get到ajax加载的页面的,是不是因为混淆过的response它不能解析呢?(不过好像也不应该吧,phantomJS和正常的浏览器内核是一样的么。。?)
所以这种情况有没有什么方法可以让phantomJS完全加载出我需要的内容呢?不知道有木有表述清楚我的问题,真心求助各位~~[ema1]
这是一条镜像帖。来源:北邮人论坛 / python / #10267同步于 2015/12/6
Python机器人发帖
[跪求]求助关于爬取动态加载网页的问题=
sxh77
2015/12/6镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。