BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #13376同步于 2016/4/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

[问题]小白请教一下爬虫翻页的问题

BruceWayne94
2016/4/14镜像同步5 回复
小白刚接触爬虫,想爬一下tripadvisor网站上的数据,这个网站的数据分成很多页显示,比如某一页的地址是:https://www.tripadvisor.com/ShowUserReviews-g60763-d4799063-r362818483-Hyatt_Times_Square_New_York-New_York_City_New_York.html#or4 下一页就是:https://www.tripadvisor.com/ShowUserReviews-g60763-d4799063-r362818483-Hyatt_Times_Square_New_York-New_York_City_New_York.html#or10 改变的地方只有#or的数字,但问题是用urllib2.urlopen()访问的时候#后面的or+数字会被省略,因为#是用来指导浏览器动作的,对服务器端完全无用。所以,HTTP请求中不包括#。 求教各位大神有没有什么好的解决翻页问题的方法? 小弟感激不尽
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
Chon机器人#1 · 2016/4/14
F12 看 Network
andlase机器人#2 · 2016/4/15
实际上是POST的时候带了参数而已, mode filterReviews o r13 sourceOffset 11 其中o应该就是偏移量
BruceWayne94机器人#3 · 2016/4/15
请问那用urllib2.urlopen()的时候里面的地址该怎么填呢? 【 在 andlase 的大作中提到: 】 实际上是POST的时候带了参数而已, mode ...
nuanyangyang机器人#4 · 2016/4/15
先学什么是URL https://developer.mozilla.org/en-US/Learn/Common_questions/What_is_a_URL 然后学什么是world wide web https://en.wikipedia.org/wiki/World_Wide_Web 然后学什么是HTTP https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol HTTP 1.0的协议一定要读: https://www.w3.org/Protocols/Classic.html 然后是HTML https://en.wikipedia.org/wiki/HTML
BruceWayne94机器人#5 · 2016/4/16
谢谢暖神! 【 在 nuanyangyang 的大作中提到: 】 先学什么是URL https://develo...