BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #22197同步于 2016/12/10
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【分享】有人用过Hawk吗,小白求教用hawk爬取豆瓣短评时翻页的

Lhr951122
2016/12/10镜像同步7 回复
题目: 有人用过Hawk吗,小白求教用hawk爬取豆瓣短评时翻页的问题 内容: 数据挖掘小白,看了之前赵学长抓取链家网的案例,链家的URL是在最后有个pg/,然后在合并多列时改成pg{0}就行了,但是豆瓣短评的URL(以你的名字为例)第一页是:https://movie.douban.com/subject/26683290/comments?start=0&limit=20&sort=new_score&status=P第二页是https://movie.douban.com/subject/26683290/comments?start=21&limit=20&sort=new_score&status=P,具体如图,这种情况下不想爬一页换一下链接有什么方法吗??也就是第二张图的formaat应该填
订阅后,新回复会通过你的通知中心匿名送达。
7 条回复
chinapds机器人#1 · 2016/12/10
start, limit, sort 这些是http的请求参数,需要的时候塞进去就行啊,如果用网络请求库的话可以直接当参数 另,hawk是啥?还以为这贴讨论awk的用法呢。。
Lhr951122机器人#2 · 2016/12/11
【 在 chinapds 的大作中提到: 】 : start, limit, sort 这些是http的请求参数,需要的时候塞进去就行啊,如果用网络请求库的话可以直接当参数 : 另,hawk是啥?还以为这贴讨论awk的用法呢。。 在爬取链家时我用http://bj.lianjia.com/ershoufang/pg{0}表示pg后面是1,2,3,4…… 那要爬豆瓣是我应该怎么表示start后面按0,20,41,,,这样变化呢,(也就不用爬一页换一下链接)
xiaoguiwk机器人#3 · 2016/12/11
python 发自「贵邮」
cjm2015机器人#4 · 2016/12/11
通过“生成区间数”产生连续的数值,目前好像只能这样。 【 在 Lhr951122 的大作中提到: 】 : : 在爬取链家时我用http://bj.lianjia.com/ershoufang/pg{0}表示pg后面是1,2,3,4…… : 那要爬豆瓣是我应该怎么表示start后面按0,20,41,,,这样变化呢,(也就不用爬一页换一下链接)
Lhr951122机器人#5 · 2016/12/11
【 在 cjm2015 的大作中提到: 】 : 通过“生成区间数”产生连续的数值,目前好像只能这样。 我理解的区间数是用来计数的,像链家的http://bj.lianjia.com/ershoufang/pg{0},设置区间数为1~20,那么到page20的时候停下来,,,但是豆瓣的第二页是https://movie.douban.com/subject/26683290/comments?start=21&limit=20&sort=new_score&status=P,,,,https://movie.douban.com/subject/26683290/comments?start=41&limit=20&sort=new_score&status=P,,, 在填format的时候该怎么办填???在这方面完全没基础,要炸了!!
cjm2015机器人#6 · 2016/12/12
应该只能一个一个爬了。 现在的界面更美观了诶,我电脑里的还是去年年底的版本 ps:我可以帮你向鸣神提个建议,希望在这个地方允许离散值 【 在 Lhr951122 的大作中提到: 】 : : 我理解的区间数是用来计数的,像链家的http://bj.lianjia.com/ershoufang/pg{0},设置区间数为1~20,那么到page20的时候停下来,,,但是豆瓣的第二页是https://movie.douban.com/subject/26683290/comments?start=21&limit=20&sort=new_score&status=P,,,,https://movie.douban.com/subject/26683290/comments?start=41&limit=20&sort=new_score&status=P,,, : 在填format的时候该怎么办填???在这方面完全没基础,要炸了!![upload=1][/upload][upload=2][/upload]
Lhr951122机器人#7 · 2016/12/13
【 在 cjm2015 的大作中提到: 】 : 应该只能一个一个爬了。 : 现在的界面更美观了诶,我电脑里的还是去年年底的版本 : ps:我可以帮你向鸣神提个建议,希望在这个地方允许离散值 我给赵学长发了封邮件,他回复说最小为1,最大为10000,间隔为20,,,之前没仔细看,生成区间数是有间隔这个选项的,,,不过还是gg了,豆瓣短影评是只能爬十页,看知乎上说豆瓣是开放API的,,不过并不会用[em1][em1]