返回信息流从book.douban.com右侧的标签进去,https://book.douban.com/tag/?view=type&icn=index-sorttags-all,随便一个标签就有好几百页比如https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4小说分类有381页,但是修改请求地址start=980就请求不到了?
同样在浏览器里面也请求不到,好像反爬已经从根源上杜绝了通过标签爬的方式?
有同学知道有没有其他的方式整理链接吗?
ps:登录也不好使。
这是一条镜像帖。来源:北邮人论坛 / python / #24193同步于 2019/7/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
不懂就问,豆瓣屏蔽了50页以后的访问权限吗
xiaoguiwk
2019/7/27镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
start=1000试试看,获取不到了
【 在 wslyh123 的大作中提到: 】
: start=980第一个不是罪与罚吗,难倒不是一个正常的get请求就得到了吗?
很明显是50页后面就没有了,我猜是没有那么多书然后故意写那么多也显得内容很多。因为你get请求是返回结果了的,只不过html里内容是空,说明应该是没有被拦截,不然应该不会返回正确的html。而且即使浏览器端跳转到50页后面也没有内容的,没听说过网站为了反爬虫把正常访问浏览器的用户也反了。正常的反扒操作可能是加token校验,验证码,一段时间内的ip,ua次数限制等,反扒只会让用户多了一些操作来告诉服务器是一个真实的人进行的这些操作,而不是把正常用户的需求也给拦截了。
其实这样的做法好像也挺多?比如说微博的粉丝,京东的评论,哔哩哔哩的动画。前两天在b站爬完结动画一共才800页16000部,我看到有人在16年爬就是800页。可能是考虑到正常用户不会这样翻页吧……
【 在 wslyh123 的大作中提到: 】
: 很明显是50页后面就没有了,我猜是没有那么多书然后故意写那么多也显得内容很多。因为你get请求是返回结果了的,只不过html里内容是空,说明应该是没有被拦截,不然应该不会返回正确的html。而且即使浏览器端跳转到50页后面也没有内容的,没听说过网站为了反爬虫把正常访问浏览器的用户也反了。正常的反扒操作可能是加token校验,验证码,一段时间内的ip,ua次数限制等,反扒只会让用户多了一些操作来告诉服务器是一个真实的人进行的这些操作,而不是把正常用户的需求也给拦截了。