返回信息流刚刚接触爬虫,用的是httpclient发送http请求,获取北邮人论坛的主页,就是登录以后的主页面。现在的问题是,post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程,结果发现post了登录表单后,还通过xmlhttp发送一系列的异步请求,猜测主页的那些版块、子版块以及帖子的信息是通过ajax来填充的。费解,如此一来,爬虫岂不是要有针对性地分析js脚本,解析出js所包含的超链接以及ajax相关的请求,然后才能发送这些请求获取并加载为完整的页面?现在的爬虫都具有解释js的能力吗?
来自「北邮人论坛手机版」
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11601同步于 2014/11/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
爬取byr论坛遇到ajax问题
ffantastic
2014/11/9镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
phantomjs
scrapy+splash
selenium
基本都是浏览器代理。
如果不让浏览器或类似解释js,肯定要手工分析。
来自「北邮人论坛手机版」
不管是浏览器还是其他方式,爬虫获取网页后通常都会解释js吗?
【 在 reverland 的大作中提到: 】
: phantomjs
: scrapy+splash
: selenium
: ...................
来自「北邮人论坛手机版」
不带浏览器或者js解释引擎都不会解析
【 在 ffantastic 的大作中提到: 】
: 不管是浏览器还是其他方式,爬虫获取网页后通常都会解释js吗?
: 来自「北邮人论坛手机版」
来自「北邮人论坛手机版」