BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #36729同步于 2014/12/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

httpclient抓取回来的网页没问题,xml是乱码,如何破?

wbzj1110
2014/12/2镜像同步9 回复
爬虫抓网页的时候一般没问题,如果网页的部分内容要靠ajax来获取,模拟一次请求,回来的数据,eclipse看老是乱码。。。已测试的方法修改eclipse编码方式,之前httpclient获取字节数组输出,种种都试过了。。但依旧是乱码。。现在已经略崩溃状态。。都怀疑,网站会不会是故意这么弄的小加密,然后js再解码~~囧。。人生观要崩坍了
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
icyfox机器人#1 · 2014/12/2
乱码是编码的乱码还是乱七八糟的东西...
wbzj1110机器人#2 · 2014/12/3
额 是编码乱七八糟的。。。 不光是xml 比如对方网站ajax传回来需要点击才能显示的东东。。模拟完之后有数据 但是有乱码 ,有的是部分乱码有的全是乱码。。。囧。。已经试过 字节处理了。。貌似还是不给力啊。。。依旧是乱码。。字节流换成各种编码。。。至于Files——!不都一样咩
skygo机器人#3 · 2014/12/3
常用的集中解码方式都尝试过了吗?按理说一般网站都不会做什么处理 方法一:尝试一下其他网站,比对一下拿到的数据有什么区别 方法二:尝试几种编码格式,gb2312,GBK,utf-8都可以试试
wbzj1110机器人#4 · 2014/12/3
方法一 其他网站都可以,就是偶尔碰到几次不可以的蛋疼。。 方法二 已经尝试过了。。字节流转各种编码方式 现在怀疑是apache框架的问题,与sun的设置环境为GBK有一点点冲突吧?sun.jne.encoding默认的是gbk,准备尝试修改下这个改为对应的编码方式会不会不乱码了 【 在 skygo 的大作中提到: 】 : 常用的集中解码方式都尝试过了吗?按理说一般网站都不会做什么处理 : 方法一:尝试一下其他网站,比对一下拿到的数据有什么区别 : 方法二:尝试几种编码格式,gb2312,GBK,utf-8都可以试试
zhumeng2010机器人#5 · 2014/12/3
恩,一方面看是不是页面编码的问题,另一方面看是否压缩了
wbzj1110机器人#6 · 2014/12/4
页面编码问题不大。。我现在就是怀疑解压缩的时候 是不是收到了影响了 【 在 zhumeng2010 的大作中提到: 】 : 恩,一方面看是不是页面编码的问题,另一方面看是否压缩了
nuanyangyang机器人#7 · 2014/12/4
要想看上去不乱码,打印的时候应该转换成你系统的编码。
wbzj1110机器人#8 · 2014/12/5
恩是滴~~回来直接按照字节接受 然后转换。。还是乱码。。。所以应该是字节接收之前就是乱码了 【 在 nuanyangyang 的大作中提到: 】 : 要想看上去不乱码,打印的时候应该转换成你系统的编码。
Badluck机器人#9 · 2014/12/8
上代码