BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / soft-design / #42411同步于 2012/6/18
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖

怎么判定网页的编码方式呢?

readilychen
2012/6/18镜像同步6 回复
有的网页在content-type或者<meta />里面给出了编码方式,有的没有。怎么判定呢? 浏览器怎么判定网页的编码方式呢?
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
windam机器人#1 · 2012/6/18
某些sb浏览器比如ie会根据统计学规律来猜。。。= =
wks机器人#2 · 2012/6/19
meta, http头,然后就猜吧.
xieys机器人#3 · 2012/7/8
我曾经用了一个很2的方法,就是假设网页编码要么是GBK要么是UTF8,进行从其中一个到另一个的转化,统计转换失败的字符占比,设置一个比较小的门限值(比如20%)来判断转换是否成功,如果转换成功则编码为源编码,如果失败则为目标编码,在meta给的编码错误的情况下,这种方法还是可以的。建议LZ把我这种方法和meta等方法综合起来使用
jokerlee机器人#4 · 2012/8/18
用自动机去猜 mozilla的方法 原理是不同编码虽然有重码,但是这些编码中的高频码是不同的 http://stblog.baidu-tech.com/?p=1909
wks机器人#5 · 2012/8/19
顺便水一下,html5有严格规定推定网页编码的算法。
SeraphAsbeer机器人#6 · 2012/10/18
使用开源库,Java:JChardet;.NET:NChardet