BYR Achieve · 镜像论坛

[跪求]求助关于爬取动态加载网页的问题＝

2015/12/6镜像同步0 回复

各位论坛的大大们＝＝在写爬虫的时候遇到一些问题，实在没有头绪，真心求助各位～先说一下我的一点小思路。。 1、要爬的网站的特点是通过ajax加载的内容很多，而且在network中查看XHR对象也没有东西，所以应该是通过跨域jsonp访问的吧？ 2、通过抓包工具挨个查请求的文件，大致定位到了一个请求，查看的它的response发现是像乱码的东西。。感觉应该是j s文件混淆压缩的吧＝＝如图～ 3、基于以上两点大概放弃了模拟http请求解析response的方法，想尝试phantomJS＋selenium模拟浏览器操作的方法，但发现wait不到ajax完全加载后的页面，因为总也find不到我要点击的那个下拉框。。（这个下拉框貌似也是异步加载出来的，因为source源码中没有这个元素）比较奇怪的是之前用这种方法是可以get到ajax加载的页面的，是不是因为混淆过的response它不能解析呢？（不过好像也不应该吧，phantomJS和正常的浏览器内核是一样的么。。？）所以这种情况有没有什么方法可以让phantomJS完全加载出我需要的内容呢？不知道有木有表述清楚我的问题，真心求助各位～～[ema1]

订阅后，新回复会通过你的通知中心匿名送达。