返回信息流想爬一个网页,但是需要先登录这个网站。
目前的爬取方式是:自己在浏览器上登录这个网站,跟踪报文头,知道了cookie,代码就直接建立get请求,在header里带上cookie访问页面,不用登录网站了。
假如不知道cookie,需要自动登录获取cookie,那我的思路如下:
1、post请求,访问登录页面,获取cookie;
2、get请求,带上cookie访问想爬取的页面。
请问第1步,怎么获取cookie? ps:网上的教程都太老了,不适用HttpClient4.3
这是一条镜像帖。来源:北邮人论坛 / www-technology / #24627同步于 2014/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
HttpClient4.3 怎样获取cookie,以爬取需先登录的页面?
ly626568640
2014/4/10镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
binux 好久不见.
【 在 binux 的大作中提到: 】
: 两个问题:
: 1、你知道怎么发出正确的POST请求吗?
: 2、你知道怎么从返回里面获得cookie吗?
: ...................
难点就是第一问。。。。怎么获取cookie?
【 在 skygo 的大作中提到: 】
: 思路没有问题,post正确的数据给服务器就可以了啊,向Header里面写cookie还有什么难点吗
post表单可以是吗?
cookie等内容都封装在httpclient执行后返回的response对象里面,API里应该有写的
【 在 ly626568640 的大作中提到: 】
: 难点就是第一问。。。。怎么获取cookie?
:
好吧,其实我就是在response对象里找不到。。。。我再查查API,谢了
【 在 skygo 的大作中提到: 】
: post表单可以是吗?
: cookie等内容都封装在httpclient执行后返回的response对象里面,API里应该有写的
httpResponse.headerIterator()遍历之,获取值为"Set-Cookie"的Header即可,应该差不多是这样
【 在 ly626568640 的大作中提到: 】
: 好吧,其实我就是在response对象里找不到。。。。我再查查API,谢了
: