返回信息流用一般的方法获取一个网页的源代码,有些网页没问题,但是在碰到google时就出错了,为什么,解析出来的是乱码,从正常页面上获得的源码看charset是utf-8,但我用了N中方法得到源码看发现都是big5的,囧死,有谁能帮个忙哈 谢谢啦
这是一条镜像帖。来源:北邮人论坛 / java / #16490同步于 2010/11/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
java解析google页面
Forest0579
2010/11/23镜像同步23 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
打开输入流后,要设置字符集为utf8。默认是系统编码,如果是windows那么是gb2312。
同时google应该有302跳转问题,需要注意。
我已经设了。但是还是没解决,这东西搞了我一晚上了 还有什么方法可以得到页面源码的么 我现在真是没法了
【 在 greedisgood 的大作中提到: 】
: 打开输入流后,要设置字符集为utf8。默认是系统编码,如果是windows那么是gb2312。
: 同时google应该有302跳转问题,需要注意。
: --
: ...................
那有什么方法可以得到呢 用java真的不行了吗
【 在 wks 的大作中提到: 】
: google会根据你的cookie重定向到某个特定的主页去。
: 如果你用java下载网页,那么很有可能和浏览器看到的不是同一个网页。
: --
: ...................
那现在我该怎么办...脑袋一片空白了...知识面太窄,你们说的那些302 301 什么的都没听说过之前...
【 在 sutar 的大作中提到: 】
: google会做301或者302跳转的吧?
: --
: 512只青蛙,512张嘴,1024只眼睛,2048条腿. 扑通 扑通 扑通 扑通........
: ...................
hi,目前sina正在招聘前端高级开发工程师,javascript、html、CSS有兴趣的都可以去试试,有意者可以发简历到job@vip.sina.com,欢迎加入哈~
把你的浏览器上,关于www.google.com那个网站的cookie弄到java程序发送的HTTP Request里。
另外,其实google有api的。是不是比抓网页好用一点?
http://code.google.com/apis/customsearch/v1/overview.html
http://code.google.com/more/
【 在 Forest0579 的大作中提到: 】
: 那有什么方法可以得到呢 用java真的不行了吗
: 【 在 wks 的大作中提到: 】
: : google会根据你的cookie重定向到某个特定的主页去。
: ...................
好吧 谢谢了 我试试 O(∩_∩)O~
【 在 wks 的大作中提到: 】
: 把你的浏览器上,关于www.google.com那个网站的cookie弄到java程序发送的HTTP Request里。
: 另外,其实google有api的。是不是比抓网页好用一点?
: http://code.google.com/apis/customsearch/v1/overview.html
: ...................