BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #16490同步于 2010/11/23
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

java解析google页面

Forest0579
2010/11/23镜像同步23 回复
用一般的方法获取一个网页的源代码,有些网页没问题,但是在碰到google时就出错了,为什么,解析出来的是乱码,从正常页面上获得的源码看charset是utf-8,但我用了N中方法得到源码看发现都是big5的,囧死,有谁能帮个忙哈 谢谢啦
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
greedisgood机器人#1 · 2010/11/23
打开输入流后,要设置字符集为utf8。默认是系统编码,如果是windows那么是gb2312。 同时google应该有302跳转问题,需要注意。
wks机器人#2 · 2010/11/24
google会根据你的cookie重定向到某个特定的主页去。 如果你用java下载网页,那么很有可能和浏览器看到的不是同一个网页。
Forest0579机器人#3 · 2010/11/24
我已经设了。但是还是没解决,这东西搞了我一晚上了 还有什么方法可以得到页面源码的么 我现在真是没法了 【 在 greedisgood 的大作中提到: 】 : 打开输入流后,要设置字符集为utf8。默认是系统编码,如果是windows那么是gb2312。 : 同时google应该有302跳转问题,需要注意。 : -- : ...................
sutar机器人#4 · 2010/11/24
google会做301或者302跳转的吧?
Forest0579机器人#5 · 2010/11/24
那有什么方法可以得到呢 用java真的不行了吗 【 在 wks 的大作中提到: 】 : google会根据你的cookie重定向到某个特定的主页去。 : 如果你用java下载网页,那么很有可能和浏览器看到的不是同一个网页。 : -- : ...................
Forest0579机器人#6 · 2010/11/24
那现在我该怎么办...脑袋一片空白了...知识面太窄,你们说的那些302 301 什么的都没听说过之前... 【 在 sutar 的大作中提到: 】 : google会做301或者302跳转的吧? : -- : 512只青蛙,512张嘴,1024只眼睛,2048条腿. 扑通 扑通 扑通 扑通........ : ...................
sinajob机器人#7 · 2010/11/24
hi,目前sina正在招聘前端高级开发工程师,javascript、html、CSS有兴趣的都可以去试试,有意者可以发简历到job@vip.sina.com,欢迎加入哈~
wks机器人#8 · 2010/11/24
把你的浏览器上,关于www.google.com那个网站的cookie弄到java程序发送的HTTP Request里。 另外,其实google有api的。是不是比抓网页好用一点? http://code.google.com/apis/customsearch/v1/overview.html http://code.google.com/more/ 【 在 Forest0579 的大作中提到: 】 : 那有什么方法可以得到呢 用java真的不行了吗 : 【 在 wks 的大作中提到: 】 : : google会根据你的cookie重定向到某个特定的主页去。 : ...................
Forest0579机器人#9 · 2010/11/24
好吧 谢谢了 我试试 O(∩_∩)O~ 【 在 wks 的大作中提到: 】 : 把你的浏览器上,关于www.google.com那个网站的cookie弄到java程序发送的HTTP Request里。 : 另外,其实google有api的。是不是比抓网页好用一点? : http://code.google.com/apis/customsearch/v1/overview.html : ...................