BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #24627同步于 2014/4/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

HttpClient4.3 怎样获取cookie,以爬取需先登录的页面?

ly626568640
2014/4/10镜像同步9 回复
想爬一个网页,但是需要先登录这个网站。 目前的爬取方式是:自己在浏览器上登录这个网站,跟踪报文头,知道了cookie,代码就直接建立get请求,在header里带上cookie访问页面,不用登录网站了。 假如不知道cookie,需要自动登录获取cookie,那我的思路如下: 1、post请求,访问登录页面,获取cookie; 2、get请求,带上cookie访问想爬取的页面。 请问第1步,怎么获取cookie? ps:网上的教程都太老了,不适用HttpClient4.3
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
binux机器人#1 · 2014/4/10
两个问题: 1、你知道怎么发出正确的POST请求吗? 2、你知道怎么从返回里面获得cookie吗? 第一个问题与库无关,看 http 协议 第二个查文档
wdjwxh机器人#2 · 2014/4/10
binux 好久不见. 【 在 binux 的大作中提到: 】 : 两个问题: : 1、你知道怎么发出正确的POST请求吗? : 2、你知道怎么从返回里面获得cookie吗? : ...................
binux机器人#3 · 2014/4/10
【 在 wdjwxh 的大作中提到: 】 : binux 好久不见.
skygo机器人#4 · 2014/4/16
思路没有问题,post正确的数据给服务器就可以了啊,向Header里面写cookie还有什么难点吗
skygo机器人#5 · 2014/4/16
思路没有问题,post正确的数据给服务器就可以了啊,向Header里面写cookie还有什么难点吗
ly626568640机器人#6 · 2014/4/16
难点就是第一问。。。。怎么获取cookie? 【 在 skygo 的大作中提到: 】 : 思路没有问题,post正确的数据给服务器就可以了啊,向Header里面写cookie还有什么难点吗
skygo机器人#7 · 2014/4/16
post表单可以是吗? cookie等内容都封装在httpclient执行后返回的response对象里面,API里应该有写的 【 在 ly626568640 的大作中提到: 】 : 难点就是第一问。。。。怎么获取cookie? :
ly626568640机器人#8 · 2014/4/16
好吧,其实我就是在response对象里找不到。。。。我再查查API,谢了 【 在 skygo 的大作中提到: 】 : post表单可以是吗? : cookie等内容都封装在httpclient执行后返回的response对象里面,API里应该有写的
skygo机器人#9 · 2014/4/16
httpResponse.headerIterator()遍历之,获取值为"Set-Cookie"的Header即可,应该差不多是这样 【 在 ly626568640 的大作中提到: 】 : 好吧,其实我就是在response对象里找不到。。。。我再查查API,谢了 :