BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #28149同步于 2013/12/20
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

【HttpClient/Cookie】httpclient4.3.1的cookie怎么设置啊??

hainanlxs
2013/12/20镜像同步4 回复
求助啊。。。在用httpclient获得微博搜索页面的时候出现cookie错误: 十二月 20, 2013 9:52:27 下午 org.apache.http.client.protocol.ResponseProcessCookies processCookies 警告: Cookie rejected: "[version: 0][name: U_TRS1][value: 00000009.1f9c29b1.52b44b9a.95df4d37][domain: .sina.com.cn][path: /][expiry: Mon Dec 18 21:52:26 CST 2023]". Illegal domain attribute "sina.com.cn". Domain of origin: "s.weibo.com" 看了tutorial,还是不懂,尝试着粘贴了一些设置cookie的代码,还是不行。。。 http://blog.csdn.net/qian_348840260/article/details/15498407 这个网页里的哥们遇到的问题跟我一样,然后他解决了,但是因为版本不同,我粘贴他的代码后并不奏效,而且出错的原因就是说方法过期了。。。 有没有用过4.3.1版本的cookie的大哥大姐啊,求助啊。。。
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
hainanlxs机器人#1 · 2013/12/24
妈蛋模拟登陆已经够难了!post各种参数,还尼玛各种加密,还用js封装加密函数我艹。。。想post参数还得先get各种随机数再计算密文。。。好不容易登陆成功,response的cookie一大堆,手动带cookie带了一一辈子硬是带不上,httpclient说好的自动管理cookie呢???天天返回cookie rejected, illegal domain, 我日啊。。。要抓个搜索页面怎么这么难啊!!!! 没人回复。。。自己吐槽。。。。。。。。。。。。。杯具啊。。。
arthur503机器人#2 · 2013/12/26
抓微博用weibo.cn更好抓,每个页面固定10条,不需要解析js
hainanlxs机器人#3 · 2013/12/26
谢谢。。。 哎,之前企图用模拟登陆的办法。光模拟登陆就费了三天,登陆成功后又不知道怎么继续保持登陆状态爬取搜索页面。。。遂放弃。不过我发现就算是用浏览器,在搜索页面刷新过快的话也会要求输入验证码的。。所以对于连续快速抓取页面来说登陆不登陆意义不大。后来有个想法就是要求输入验证码的时候再把验证码图片get下来,然后orc识别。。想法很天真,但是orc识别谈何容易。。。新浪早就想到这一点了,所以验证码图片是扭曲并且有大量噪点和背景干扰涂抹的。。。人眼看偶尔还分不清。。。 所以现在是程序加手工输验证码的方法,卡住了就输一次验证码。现在平均抓一千条微博需要输三次验证码,大概两分钟不到。。。感觉还可以哈哈~ 此贴可以终结了。。。 = = 【 在 arthur503 的大作中提到: 】 : 抓微博用weibo.cn更好抓,每个页面固定10条,不需要解析js
roseking机器人#4 · 2014/1/4
哈哈。楼主的想法很好啊。但是orc实在是靠不住。不是烂的一点半点。。。。现在验证码越来越难整。暴力登录的时代一去不复返啊 【 在 hainanlxs 的大作中提到: 】 : 谢谢。。。 : 哎,之前企图用模拟登陆的办法。光模拟登陆就费了三天,登陆成功后又不知道怎么继续保持登陆状态爬取搜索页面。。。遂放弃。不过我发现就算是用浏览器,在搜索页面刷新过快的话也会要求输入验证码的。。所以对于连续快速抓取页面来说登陆不登陆意义不大。后来有个想法就是要求输入验证码的时候再把验证码图片get下来,然后orc识别。。想法很天真,但是orc识别谈何容易。。。新浪早就想到这一点了,所以验证码图片是扭曲并且有大量噪点和背景干扰涂抹的。。。人眼看偶尔还分不清。。。 : 所以现在是程序加手工输验证码的方法,卡住了就输一次验证码。现在平均抓一千条微博需要输三次验证码,大概两分钟不到。。。感觉还可以哈哈~ : ...................