返回信息流刚刚接触爬虫,用的是httpclient发送http请求,获取北邮人论坛的主页,就是登录以后的主页面。现在的问题是,post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程,结果发现post了登录表单后,还通过xmlhttp发送一系列的异步请求,猜测主页的那些版块、子版块以及帖子的信息是通过ajax来填充的。费解,如此一来,爬虫岂不是要有针对性地分析js脚本,解析出js所包含的超链接以及ajax相关的请求,然后才能发送这些请求获取并加载为完整的页面?现在的爬虫都具有解释js的能力吗?
来自「北邮人论坛手机版」
这是一条镜像帖。来源:北邮人论坛 / www-technology / #28163同步于 2014/11/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
爬取byr论坛遇到ajax问题
ffantastic
2014/11/9镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
我的爬虫支持哦,https://github.com/binux/pyspider
url用 http://bbs.byr.cn/article/WWWTechnology/28163
虽然我发现用 baidu spider 的UA压根就不用javascript
js解释器是自己写的么[ema33]
【 在 binux 的大作中提到: 】
: 我的爬虫支持哦,https://github.com/binux/pyspider
: url用 http://bbs.byr.cn/article/WWWTechnology/28163
: 虽然我发现用 baidu spider 的UA压根就不用javascript
赞
【 在 ffantastic (袋々鼠) 的大作中提到: 】
: 刚刚接触爬虫,用的是httpclient发送http请求,获取北邮人论坛的主页,就是登录以后的主页面。现在的问题是,post了含有用户名和密码的表单后,server的响应页面不完整。用firefox的请求拦截插件分析了浏览器登录访问byr主页面的过程,结果发现post了登录表单后,还通过x
: 来自「北邮人论坛手机版」
【 在 binux 的大作中提到: 】
: 我的爬虫支持哦,https://github.com/binux/pyspider
: url用 http://bbs.byr.cn/article/WWWTechnology/28163
: 虽然我发现用 baidu spider 的UA压根就不用javascript
b神上HN首页了!赞!!!