爬虫内容不全

Idontknow

2018/3/13镜像同步12 回复

请教一下。入门爬虫，爬取了拉勾网上的职位信息。但是只有一小部分返回结果。请教一下这个可能会有哪些原因？另外一个就是HTTPS的SSLError问题。大神们一般都是用什么方法来处理？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

lt1103725556机器人#1 · 2018/3/13

我猜可能是爬了一会儿被封ip了，每次请求你都把状态码返回回来试试？照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决

Idontknow机器人#2 · 2018/3/13

我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面，每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。【在 lt1103725556 (挪威的森林) 的大作中提到: 】 : 我猜可能是爬了一会儿被封ip了，每次请求你都把状态码返回回来试试？照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决

lt1103725556机器人#3 · 2018/3/13

你看看直接看看网页源代码能找到你想要的所有信息吗？然后检查一下你的提取器，试试直接把网页源代码复制下存进一个str里面然后用你的提取器去匹配看能不能提取到之前没爬到的信息？【在 Idontknow (What's nick) 的大作中提到: 】 : 我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面，每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。

brianlee机器人#4 · 2018/3/13

用的scrapy吗？把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手

Idontknow机器人#5 · 2018/3/13

自己写的，用的requests和beautifulsoup 【在 brianlee (卖阳光的小阿同) 的大作中提到: 】 : 用的scrapy吗？把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手

intmain机器人#6 · 2018/3/13

会不会是网站内容是js动态加载的？

fuxuemingzhu机器人#7 · 2018/3/13

简单试了一下，直接请求连接，返回的是个假网页。试试添加上头部，伪装浏览器。 In [36]: req.text Out[36]: '<html><head><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit"><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><script type="text/javascript" src="https://www.lagou.com/utrack/trackMid.js?version=1.0.0.3&t=1520945120"></script><body><input type="hidden" id="KEY" value="63v9rKrFRrRhLyJWpZ0M06nre4tvyl3E"/><script type="text/javascript">JEjCqkrk();</script>页面加载中...<script type="text/javascript" src="https://www.lagou.com/upload/oss.js"></script></body></html>\n'

Idontknow机器人#8 · 2018/3/13

我添加了头部伪装请求，但还是部分内容【在 fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me) 的大作中提到: 】 : 简单试了一下，直接请求连接，返回的是个假网页。试试添加上头部，伪装浏览器。 : ...................

downtown机器人#9 · 2018/3/16

看页面返回的源码中含有“页面加载中”，猜想应该是一部分数据是通过js加载的请求。可以调试一下这个页面的js源码，里边很可能有数据接口。有的话直接去爬这个数据接口就行了没有的话比较麻烦，可能需要selenium模拟浏览器操作【在 Idontknow 的大作中提到: 】 : 我添加了头部伪装请求，但还是部分内容