返回信息流请教一下。
入门爬虫,爬取了拉勾网上的职位信息。但是只有一小部分返回结果。请教一下这个可能会有哪些原因?
另外一个就是HTTPS的SSLError问题。大神们一般都是用什么方法来处理?
这是一条镜像帖。来源:北邮人论坛 / python / #21140同步于 2018/3/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
爬虫内容不全
Idontknow
2018/3/13镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
我猜可能是爬了一会儿被封ip了,每次请求你都把状态码返回回来试试?照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决
我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面,每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。
【 在 lt1103725556 (挪威的森林) 的大作中提到: 】
: 我猜可能是爬了一会儿被封ip了,每次请求你都把状态码返回回来试试?照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决
你看看直接看看网页源代码能找到你想要的所有信息吗?然后检查一下你的提取器,试试直接把网页源代码复制下存进一个str里面然后用你的提取器去匹配看能不能提取到之前没爬到的信息?
【 在 Idontknow (What's nick) 的大作中提到: 】
: 我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面,每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。
自己写的,用的requests和beautifulsoup
【 在 brianlee (卖阳光的小阿同) 的大作中提到: 】
: 用的scrapy吗?把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手
简单试了一下,直接请求连接,返回的是个假网页。试试添加上头部,伪装浏览器。
In [36]: req.text
Out[36]: '<html><head><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit"><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><script type="text/javascript" src="https://www.lagou.com/utrack/trackMid.js?version=1.0.0.3&t=1520945120"></script><body><input type="hidden" id="KEY" value="63v9rKrFRrRhLyJWpZ0M06nre4tvyl3E"/><script type="text/javascript">JEjCqkrk();</script>页面加载中...<script type="text/javascript" src="https://www.lagou.com/upload/oss.js"></script></body></html>\n'
我添加了头部伪装请求,但还是部分内容
【 在 fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me) 的大作中提到: 】
: 简单试了一下,直接请求连接,返回的是个假网页。试试添加上头部,伪装浏览器。
: ...................
看页面返回的源码中含有“页面加载中”,猜想应该是一部分数据是通过js加载的请求。可以调试一下这个页面的js源码,里边很可能有数据接口。有的话直接去爬这个数据接口就行了
没有的话比较麻烦,可能需要selenium模拟浏览器操作
【 在 Idontknow 的大作中提到: 】
: 我添加了头部伪装请求,但还是部分内容