返回信息流如图,没有办法爬下来正常的网页结构,只报给我这样的东西,请问有没有了解的同学来解释下什么原因?
这是一条镜像帖。来源:北邮人论坛 / python / #22979同步于 2018/9/21
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
豆瓣页面无法用urlopen正常打开
Bentham
2018/9/21镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
你已经爬下来了啊……只不过你没按照网页说明进行解码
【 在 Bentham 的大作中提到: 】
: 谢谢回复~
: 但是很多都是可以正常爬下来的呀
非常感谢!
能不能再具体一点,我也好百度一下,看看怎么做[ema22]
【 在 fuxuemingzhu (负雪明烛 http://fuxuemingzhu.cn/) 的大作中提到: 】
: 你已经爬下来了啊……只不过你没按照网页说明进行解码
这么着试一试吧~搜urllib encoding能搜到很多资料的
resource = urllib.request.urlopen(an_url)
content = resource.read().decode(resource.headers.get_content_charset())
【 在 Bentham 的大作中提到: 】
: 非常感谢!
: 能不能再具体一点,我也好百度一下,看看怎么做
好的好的,我这就试一下!
【 在 fuxuemingzhu (负雪明烛 http://fuxuemingzhu.cn/) 的大作中提到: 】
: 这么着试一试吧~搜urllib encoding能搜到很多资料的
: resource = urllib.request.urlopen(an_url)
: ...................
我觉得 requests 库很好用……为啥不用requests呢?好像自从某大神整合了两个urllib库以后,基本上都能直接上requests了啊。