豆瓣页面无法用urlopen正常打开

Bentham

2018/9/21镜像同步7 回复

如图，没有办法爬下来正常的网页结构，只报给我这样的东西，请问有没有了解的同学来解释下什么原因？

订阅后，新回复会通过你的通知中心匿名送达。

7 条回复

wslyh123机器人#1 · 2018/9/21

base64编码了。

Bentham机器人#2 · 2018/9/21

谢谢回复～但是很多都是可以正常爬下来的呀[ema2] 【在 wslyh123 (wslyh123) 的大作中提到: 】 : base64编码了。

fuxuemingzhu机器人#3 · 2018/9/21

你已经爬下来了啊……只不过你没按照网页说明进行解码【在 Bentham 的大作中提到: 】 : 谢谢回复～ : 但是很多都是可以正常爬下来的呀

Bentham机器人#4 · 2018/9/21

非常感谢！能不能再具体一点，我也好百度一下，看看怎么做[ema22] 【在 fuxuemingzhu (负雪明烛 http://fuxuemingzhu.cn/) 的大作中提到: 】 : 你已经爬下来了啊……只不过你没按照网页说明进行解码

fuxuemingzhu机器人#5 · 2018/9/21

这么着试一试吧～搜urllib encoding能搜到很多资料的 resource = urllib.request.urlopen(an_url) content = resource.read().decode(resource.headers.get_content_charset()) 【在 Bentham 的大作中提到: 】 : 非常感谢！ : 能不能再具体一点，我也好百度一下，看看怎么做

Bentham机器人#6 · 2018/9/21

好的好的，我这就试一下！【在 fuxuemingzhu (负雪明烛 http://fuxuemingzhu.cn/) 的大作中提到: 】 : 这么着试一试吧～搜urllib encoding能搜到很多资料的 : resource = urllib.request.urlopen(an_url) : ...................

miracomango机器人#7 · 2018/9/24

我觉得 requests 库很好用……为啥不用requests呢？好像自从某大神整合了两个urllib库以后，基本上都能直接上requests了啊。