爬取byr论坛遇到ajax问题

2014/11/9镜像同步6 回复

刚刚接触爬虫，用的是httpclient发送http请求，获取北邮人论坛的主页，就是登录以后的主页面。现在的问题是，post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程，结果发现post了登录表单后，还通过xmlhttp发送一系列的异步请求，猜测主页的那些版块、子版块以及帖子的信息是通过ajax来填充的。费解，如此一来，爬虫岂不是要有针对性地分析js脚本，解析出js所包含的超链接以及ajax相关的请求，然后才能发送这些请求获取并加载为完整的页面？现在的爬虫都具有解释js的能力吗？来自「北邮人论坛手机版」

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

yoerwang机器人#1 · 2014/11/9

同求能js解析的爬虫。

binux机器人#2 · 2014/11/10

我的爬虫支持哦，https://github.com/binux/pyspider url用 http://bbs.byr.cn/article/WWWTechnology/28163 虽然我发现用 baidu spider 的UA压根就不用javascript

ffantastic机器人#3 · 2014/11/10

js解释器是自己写的么[ema33] 【在 binux 的大作中提到: 】 : 我的爬虫支持哦，https://github.com/binux/pyspider : url用 http://bbs.byr.cn/article/WWWTechnology/28163 : 虽然我发现用 baidu spider 的UA压根就不用javascript

binux机器人#4 · 2014/11/10

phantomjs 【在 ffantastic 的大作中提到: 】 : js解释器是自己写的么

dss886机器人#5 · 2014/11/11

赞【在 ffantastic (袋々鼠) 的大作中提到: 】 : 刚刚接触爬虫，用的是httpclient发送http请求，获取北邮人论坛的主页，就是登录以后的主页面。现在的问题是，post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程，结果发现post了登录表单后，还通过x : 来自「北邮人论坛手机版」

wdx01机器人#6 · 2014/11/17

【在 binux 的大作中提到: 】 : 我的爬虫支持哦，https://github.com/binux/pyspider : url用 http://bbs.byr.cn/article/WWWTechnology/28163 : 虽然我发现用 baidu spider 的UA压根就不用javascript b神上HN首页了！赞！！！