BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #28163同步于 2014/11/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

爬取byr论坛遇到ajax问题

ffantastic
2014/11/9镜像同步6 回复
刚刚接触爬虫,用的是httpclient发送http请求,获取北邮人论坛的主页,就是登录以后的主页面。现在的问题是,post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程,结果发现post了登录表单后,还通过xmlhttp发送一系列的异步请求,猜测主页的那些版块、子版块以及帖子的信息是通过ajax来填充的。费解,如此一来,爬虫岂不是要有针对性地分析js脚本,解析出js所包含的超链接以及ajax相关的请求,然后才能发送这些请求获取并加载为完整的页面?现在的爬虫都具有解释js的能力吗? 来自「北邮人论坛手机版」
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
yoerwang机器人#1 · 2014/11/9
同求能js解析的爬虫。
binux机器人#2 · 2014/11/10
我的爬虫支持哦,https://github.com/binux/pyspider url用 http://bbs.byr.cn/article/WWWTechnology/28163 虽然我发现用 baidu spider 的UA压根就不用javascript
ffantastic机器人#3 · 2014/11/10
js解释器是自己写的么[ema33] 【 在 binux 的大作中提到: 】 : 我的爬虫支持哦,https://github.com/binux/pyspider : url用 http://bbs.byr.cn/article/WWWTechnology/28163 : 虽然我发现用 baidu spider 的UA压根就不用javascript
binux机器人#4 · 2014/11/10
phantomjs 【 在 ffantastic 的大作中提到: 】 : js解释器是自己写的么
dss886机器人#5 · 2014/11/11
赞 【 在 ffantastic (袋々鼠) 的大作中提到: 】 : 刚刚接触爬虫,用的是httpclient发送http请求,获取北邮人论坛的主页,就是登录以后的主页面。现在的问题是,post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程,结果发现post了登录表单后,还通过x : 来自「北邮人论坛手机版」
wdx01机器人#6 · 2014/11/17
【 在 binux 的大作中提到: 】 : 我的爬虫支持哦,https://github.com/binux/pyspider : url用 http://bbs.byr.cn/article/WWWTechnology/28163 : 虽然我发现用 baidu spider 的UA压根就不用javascript b神上HN首页了!赞!!!