返回信息流题目:
有人用过Hawk吗,小白求教用hawk爬取豆瓣短评时翻页的问题
内容:
数据挖掘小白,看了之前赵学长抓取链家网的案例,链家的URL是在最后有个pg/,然后在合并多列时改成pg{0}就行了,但是豆瓣短评的URL(以你的名字为例)第一页是:https://movie.douban.com/subject/26683290/comments?start=0&limit=20&sort=new_score&status=P第二页是https://movie.douban.com/subject/26683290/comments?start=21&limit=20&sort=new_score&status=P,具体如图,这种情况下不想爬一页换一下链接有什么方法吗??也就是第二张图的formaat应该填
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #22197同步于 2016/12/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【分享】有人用过Hawk吗,小白求教用hawk爬取豆瓣短评时翻页的
Lhr951122
2016/12/10镜像同步7 回复
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
start, limit, sort 这些是http的请求参数,需要的时候塞进去就行啊,如果用网络请求库的话可以直接当参数
另,hawk是啥?还以为这贴讨论awk的用法呢。。
【 在 chinapds 的大作中提到: 】
: start, limit, sort 这些是http的请求参数,需要的时候塞进去就行啊,如果用网络请求库的话可以直接当参数
: 另,hawk是啥?还以为这贴讨论awk的用法呢。。
在爬取链家时我用http://bj.lianjia.com/ershoufang/pg{0}表示pg后面是1,2,3,4……
那要爬豆瓣是我应该怎么表示start后面按0,20,41,,,这样变化呢,(也就不用爬一页换一下链接)
通过“生成区间数”产生连续的数值,目前好像只能这样。
【 在 Lhr951122 的大作中提到: 】
:
: 在爬取链家时我用http://bj.lianjia.com/ershoufang/pg{0}表示pg后面是1,2,3,4……
: 那要爬豆瓣是我应该怎么表示start后面按0,20,41,,,这样变化呢,(也就不用爬一页换一下链接)
【 在 cjm2015 的大作中提到: 】
: 通过“生成区间数”产生连续的数值,目前好像只能这样。
我理解的区间数是用来计数的,像链家的http://bj.lianjia.com/ershoufang/pg{0},设置区间数为1~20,那么到page20的时候停下来,,,但是豆瓣的第二页是https://movie.douban.com/subject/26683290/comments?start=21&limit=20&sort=new_score&status=P,,,,https://movie.douban.com/subject/26683290/comments?start=41&limit=20&sort=new_score&status=P,,,
在填format的时候该怎么办填???在这方面完全没基础,要炸了!!
应该只能一个一个爬了。
现在的界面更美观了诶,我电脑里的还是去年年底的版本
ps:我可以帮你向鸣神提个建议,希望在这个地方允许离散值
【 在 Lhr951122 的大作中提到: 】
:
: 我理解的区间数是用来计数的,像链家的http://bj.lianjia.com/ershoufang/pg{0},设置区间数为1~20,那么到page20的时候停下来,,,但是豆瓣的第二页是https://movie.douban.com/subject/26683290/comments?start=21&limit=20&sort=new_score&status=P,,,,https://movie.douban.com/subject/26683290/comments?start=41&limit=20&sort=new_score&status=P,,,
: 在填format的时候该怎么办填???在这方面完全没基础,要炸了!![upload=1][/upload][upload=2][/upload]
【 在 cjm2015 的大作中提到: 】
: 应该只能一个一个爬了。
: 现在的界面更美观了诶,我电脑里的还是去年年底的版本
: ps:我可以帮你向鸣神提个建议,希望在这个地方允许离散值
我给赵学长发了封邮件,他回复说最小为1,最大为10000,间隔为20,,,之前没仔细看,生成区间数是有间隔这个选项的,,,不过还是gg了,豆瓣短影评是只能爬十页,看知乎上说豆瓣是开放API的,,不过并不会用[em1][em1]