【已解决】如何正确解析一个jsp网页，中文乱码的事

2014/11/19镜像同步3 回复

是这样，我想解析北邮图书馆的网页，但是发现http://211.68.68.197/opac_two/search2/search.jsp却没有charset的设置，不知道是什么编码。猜测是iso-8859-1 换成python3可以解决，或者在python2.x下使用setdefaultencoding即可。

订阅后，新回复会通过你的通知中心匿名送达。

3 条回复

WTF机器人#1 · 2014/11/19

【在 buptmuye 的大作中提到: 】 : 是这样，我想解析北邮图书馆的网页，但是发现http://211.68.68.197/opac_two/search2/search.jsp却没有charset的设置，不知道是什么编码。猜测是iso-8859-1 : 但是使用beautifulsoup之后打印发现很多"??????????"之类的乱码，求达人指点。 : 我还使用过decode('gbk/gb2312').encode('utf-8')，都不行呀 : ...................

buptmuye机器人#2 · 2014/11/19

抱歉没加载好图片，我试试看【在 WTF (WTF) 的大作中提到: 】 : [upload=1][/upload] 通过『我邮2.0』发布

WTF机器人#3 · 2014/11/19

编码应该就是GB2312