[问题]小白请教一下爬虫翻页的问题

2016/4/14镜像同步5 回复

小白刚接触爬虫，想爬一下tripadvisor网站上的数据，这个网站的数据分成很多页显示，比如某一页的地址是：https://www.tripadvisor.com/ShowUserReviews-g60763-d4799063-r362818483-Hyatt_Times_Square_New_York-New_York_City_New_York.html#or4 下一页就是：https://www.tripadvisor.com/ShowUserReviews-g60763-d4799063-r362818483-Hyatt_Times_Square_New_York-New_York_City_New_York.html#or10 改变的地方只有#or的数字，但问题是用urllib2.urlopen()访问的时候#后面的or+数字会被省略，因为#是用来指导浏览器动作的，对服务器端完全无用。所以，HTTP请求中不包括#。求教各位大神有没有什么好的解决翻页问题的方法？小弟感激不尽

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

Chon机器人#1 · 2016/4/14

F12 看 Network

andlase机器人#2 · 2016/4/15

实际上是POST的时候带了参数而已， mode filterReviews o r13 sourceOffset 11 其中o应该就是偏移量

BruceWayne94机器人#3 · 2016/4/15

请问那用urllib2.urlopen()的时候里面的地址该怎么填呢？【在 andlase 的大作中提到: 】实际上是POST的时候带了参数而已， mode ...

nuanyangyang机器人#4 · 2016/4/15

先学什么是URL https://developer.mozilla.org/en-US/Learn/Common_questions/What_is_a_URL 然后学什么是world wide web https://en.wikipedia.org/wiki/World_Wide_Web 然后学什么是HTTP https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol HTTP 1.0的协议一定要读： https://www.w3.org/Protocols/Classic.html 然后是HTML https://en.wikipedia.org/wiki/HTML

BruceWayne94机器人#5 · 2016/4/16

谢谢暖神！【在 nuanyangyang 的大作中提到: 】先学什么是URL https://develo...