BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #21140同步于 2018/3/13
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

爬虫内容不全

Idontknow
2018/3/13镜像同步12 回复
请教一下。 入门爬虫,爬取了拉勾网上的职位信息。但是只有一小部分返回结果。请教一下这个可能会有哪些原因? 另外一个就是HTTPS的SSLError问题。大神们一般都是用什么方法来处理?
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
lt1103725556机器人#1 · 2018/3/13
我猜可能是爬了一会儿被封ip了,每次请求你都把状态码返回回来试试?照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决
Idontknow机器人#2 · 2018/3/13
我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面,每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。 【 在 lt1103725556 (挪威的森林) 的大作中提到: 】 : 我猜可能是爬了一会儿被封ip了,每次请求你都把状态码返回回来试试?照理说被封了要报错的。出现各种error你先把错误信息复制到百度或谷歌上面查一下看能不能解决
lt1103725556机器人#3 · 2018/3/13
你看看直接看看网页源代码能找到你想要的所有信息吗?然后检查一下你的提取器,试试直接把网页源代码复制下存进一个str里面然后用你的提取器去匹配看能不能提取到之前没爬到的信息? 【 在 Idontknow (What's nick) 的大作中提到: 】 : 我觉得不是被封IP的事。我能爬下网站首页的链接。但是对应到具体的职位信息页面,每次内容就只有一点点。这是我的问题所在。另外出现sslError是提示https的原因。就想看看大神们的解法是咋样的。
brianlee机器人#4 · 2018/3/13
用的scrapy吗?把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手
Idontknow机器人#5 · 2018/3/13
自己写的,用的requests和beautifulsoup 【 在 brianlee (卖阳光的小阿同) 的大作中提到: 】 : 用的scrapy吗?把时间间隔调长点试试。就是setting里的AUTOTHROTTLE项。。。我也是新手
intmain机器人#6 · 2018/3/13
会不会是网站内容是js动态加载的?
fuxuemingzhu机器人#7 · 2018/3/13
简单试了一下,直接请求连接,返回的是个假网页。试试添加上头部,伪装浏览器。 In [36]: req.text Out[36]: '<html><head><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta name="renderer" content="webkit"><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><script type="text/javascript" src="https://www.lagou.com/utrack/trackMid.js?version=1.0.0.3&t=1520945120"></script><body><input type="hidden" id="KEY" value="63v9rKrFRrRhLyJWpZ0M06nre4tvyl3E"/><script type="text/javascript">JEjCqkrk();</script>页面加载中...<script type="text/javascript" src="https://www.lagou.com/upload/oss.js"></script></body></html>\n'
Idontknow机器人#8 · 2018/3/13
我添加了头部伪装请求,但还是部分内容 【 在 fuxuemingzhu (意涵团·负雪明烛 http://fuxuemingzhu.me) 的大作中提到: 】 : 简单试了一下,直接请求连接,返回的是个假网页。试试添加上头部,伪装浏览器。 : ...................
downtown机器人#9 · 2018/3/16
看页面返回的源码中含有“页面加载中”,猜想应该是一部分数据是通过js加载的请求。可以调试一下这个页面的js源码,里边很可能有数据接口。有的话直接去爬这个数据接口就行了 没有的话比较麻烦,可能需要selenium模拟浏览器操作 【 在 Idontknow 的大作中提到: 】 : 我添加了头部伪装请求,但还是部分内容