返回信息流爬虫抓网页的时候一般没问题,如果网页的部分内容要靠ajax来获取,模拟一次请求,回来的数据,eclipse看老是乱码。。。已测试的方法修改eclipse编码方式,之前httpclient获取字节数组输出,种种都试过了。。但依旧是乱码。。现在已经略崩溃状态。。都怀疑,网站会不会是故意这么弄的小加密,然后js再解码~~囧。。人生观要崩坍了
这是一条镜像帖。来源:北邮人论坛 / java / #36729同步于 2014/12/2
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
httpclient抓取回来的网页没问题,xml是乱码,如何破?
wbzj1110
2014/12/2镜像同步9 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
额 是编码乱七八糟的。。。 不光是xml 比如对方网站ajax传回来需要点击才能显示的东东。。模拟完之后有数据 但是有乱码 ,有的是部分乱码有的全是乱码。。。囧。。已经试过 字节处理了。。貌似还是不给力啊。。。依旧是乱码。。字节流换成各种编码。。。至于Files——!不都一样咩
常用的集中解码方式都尝试过了吗?按理说一般网站都不会做什么处理
方法一:尝试一下其他网站,比对一下拿到的数据有什么区别
方法二:尝试几种编码格式,gb2312,GBK,utf-8都可以试试
方法一 其他网站都可以,就是偶尔碰到几次不可以的蛋疼。。
方法二 已经尝试过了。。字节流转各种编码方式
现在怀疑是apache框架的问题,与sun的设置环境为GBK有一点点冲突吧?sun.jne.encoding默认的是gbk,准备尝试修改下这个改为对应的编码方式会不会不乱码了
【 在 skygo 的大作中提到: 】
: 常用的集中解码方式都尝试过了吗?按理说一般网站都不会做什么处理
: 方法一:尝试一下其他网站,比对一下拿到的数据有什么区别
: 方法二:尝试几种编码格式,gb2312,GBK,utf-8都可以试试
页面编码问题不大。。我现在就是怀疑解压缩的时候 是不是收到了影响了
【 在 zhumeng2010 的大作中提到: 】
: 恩,一方面看是不是页面编码的问题,另一方面看是否压缩了
恩是滴~~回来直接按照字节接受 然后转换。。还是乱码。。。所以应该是字节接收之前就是乱码了
【 在 nuanyangyang 的大作中提到: 】
: 要想看上去不乱码,打印的时候应该转换成你系统的编码。