爬取byr论坛遇到ajax问题

2014/11/9镜像同步4 回复

刚刚接触爬虫，用的是httpclient发送http请求，获取北邮人论坛的主页，就是登录以后的主页面。现在的问题是，post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程，结果发现post了登录表单后，还通过xmlhttp发送一系列的异步请求，猜测主页的那些版块、子版块以及帖子的信息是通过ajax来填充的。费解，如此一来，爬虫岂不是要有针对性地分析js脚本，解析出js所包含的超链接以及ajax相关的请求，然后才能发送这些请求获取并加载为完整的页面？现在的爬虫都具有解释js的能力吗？来自「北邮人论坛手机版」

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

reverland机器人#1 · 2014/11/9

phantomjs scrapy+splash selenium 基本都是浏览器代理。如果不让浏览器或类似解释js，肯定要手工分析。来自「北邮人论坛手机版」

ffantastic机器人#2 · 2014/11/9

不管是浏览器还是其他方式，爬虫获取网页后通常都会解释js吗？【在 reverland 的大作中提到: 】 : phantomjs : scrapy+splash : selenium : ................... 来自「北邮人论坛手机版」

reverland机器人#3 · 2014/11/9

不带浏览器或者js解释引擎都不会解析【在 ffantastic 的大作中提到: 】 : 不管是浏览器还是其他方式，爬虫获取网页后通常都会解释js吗？ : 来自「北邮人论坛手机版」来自「北邮人论坛手机版」

ffantastic机器人#4 · 2014/11/9

多谢~ 【在 reverland 的大作中提到: 】 : 不带浏览器或者js解释引擎都不会解析 : 来自「北邮人论坛手机版」