返回信息流有的网页在content-type或者<meta />里面给出了编码方式,有的没有。怎么判定呢?
浏览器怎么判定网页的编码方式呢?
这是一条镜像帖。来源:北邮人论坛 / soft-design / #42411同步于 2012/6/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖
怎么判定网页的编码方式呢?
readilychen
2012/6/18镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
我曾经用了一个很2的方法,就是假设网页编码要么是GBK要么是UTF8,进行从其中一个到另一个的转化,统计转换失败的字符占比,设置一个比较小的门限值(比如20%)来判断转换是否成功,如果转换成功则编码为源编码,如果失败则为目标编码,在meta给的编码错误的情况下,这种方法还是可以的。建议LZ把我这种方法和meta等方法综合起来使用
用自动机去猜 mozilla的方法
原理是不同编码虽然有重码,但是这些编码中的高频码是不同的
http://stblog.baidu-tech.com/?p=1909