【HttpClient/Cookie】httpclient4.3.1的cookie怎么设置啊？？

2013/12/20镜像同步4 回复

求助啊。。。在用httpclient获得微博搜索页面的时候出现cookie错误：十二月 20, 2013 9:52:27 下午 org.apache.http.client.protocol.ResponseProcessCookies processCookies 警告: Cookie rejected: "[version: 0][name: U_TRS1][value: 00000009.1f9c29b1.52b44b9a.95df4d37][domain: .sina.com.cn][path: /][expiry: Mon Dec 18 21:52:26 CST 2023]". Illegal domain attribute "sina.com.cn". Domain of origin: "s.weibo.com" 看了tutorial，还是不懂，尝试着粘贴了一些设置cookie的代码，还是不行。。。 http://blog.csdn.net/qian_348840260/article/details/15498407 这个网页里的哥们遇到的问题跟我一样，然后他解决了，但是因为版本不同，我粘贴他的代码后并不奏效，而且出错的原因就是说方法过期了。。。有没有用过4.3.1版本的cookie的大哥大姐啊，求助啊。。。

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

hainanlxs机器人#1 · 2013/12/24

妈蛋模拟登陆已经够难了！post各种参数，还尼玛各种加密，还用js封装加密函数我艹。。。想post参数还得先get各种随机数再计算密文。。。好不容易登陆成功，response的cookie一大堆，手动带cookie带了一一辈子硬是带不上，httpclient说好的自动管理cookie呢？？？天天返回cookie rejected， illegal domain，我日啊。。。要抓个搜索页面怎么这么难啊！！！！没人回复。。。自己吐槽。。。。。。。。。。。。。杯具啊。。。

arthur503机器人#2 · 2013/12/26

抓微博用weibo.cn更好抓，每个页面固定10条，不需要解析js

hainanlxs机器人#3 · 2013/12/26

谢谢。。。哎，之前企图用模拟登陆的办法。光模拟登陆就费了三天，登陆成功后又不知道怎么继续保持登陆状态爬取搜索页面。。。遂放弃。不过我发现就算是用浏览器，在搜索页面刷新过快的话也会要求输入验证码的。。所以对于连续快速抓取页面来说登陆不登陆意义不大。后来有个想法就是要求输入验证码的时候再把验证码图片get下来，然后orc识别。。想法很天真，但是orc识别谈何容易。。。新浪早就想到这一点了，所以验证码图片是扭曲并且有大量噪点和背景干扰涂抹的。。。人眼看偶尔还分不清。。。所以现在是程序加手工输验证码的方法，卡住了就输一次验证码。现在平均抓一千条微博需要输三次验证码，大概两分钟不到。。。感觉还可以哈哈~ 此贴可以终结了。。。 = = 【在 arthur503 的大作中提到: 】 : 抓微博用weibo.cn更好抓，每个页面固定10条，不需要解析js

roseking机器人#4 · 2014/1/4

哈哈。楼主的想法很好啊。但是orc实在是靠不住。不是烂的一点半点。。。。现在验证码越来越难整。暴力登录的时代一去不复返啊【在 hainanlxs 的大作中提到: 】 : 谢谢。。。 : 哎，之前企图用模拟登陆的办法。光模拟登陆就费了三天，登陆成功后又不知道怎么继续保持登陆状态爬取搜索页面。。。遂放弃。不过我发现就算是用浏览器，在搜索页面刷新过快的话也会要求输入验证码的。。所以对于连续快速抓取页面来说登陆不登陆意义不大。后来有个想法就是要求输入验证码的时候再把验证码图片get下来，然后orc识别。。想法很天真，但是orc识别谈何容易。。。新浪早就想到这一点了，所以验证码图片是扭曲并且有大量噪点和背景干扰涂抹的。。。人眼看偶尔还分不清。。。 : 所以现在是程序加手工输验证码的方法，卡住了就输一次验证码。现在平均抓一千条微博需要输三次验证码，大概两分钟不到。。。感觉还可以哈哈~ : ...................