返回信息流小白刚接触爬虫,想爬一下tripadvisor网站上的数据,这个网站的数据分成很多页显示,比如某一页的地址是:https://www.tripadvisor.com/ShowUserReviews-g60763-d4799063-r362818483-Hyatt_Times_Square_New_York-New_York_City_New_York.html#or4
下一页就是:https://www.tripadvisor.com/ShowUserReviews-g60763-d4799063-r362818483-Hyatt_Times_Square_New_York-New_York_City_New_York.html#or10
改变的地方只有#or的数字,但问题是用urllib2.urlopen()访问的时候#后面的or+数字会被省略,因为#是用来指导浏览器动作的,对服务器端完全无用。所以,HTTP请求中不包括#。
求教各位大神有没有什么好的解决翻页问题的方法? 小弟感激不尽
这是一条镜像帖。来源:北邮人论坛 / python / #13376同步于 2016/4/14
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
[问题]小白请教一下爬虫翻页的问题
BruceWayne94
2016/4/14镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
请问那用urllib2.urlopen()的时候里面的地址该怎么填呢?
【 在 andlase 的大作中提到: 】
实际上是POST的时候带了参数而已,
mode ...
先学什么是URL
https://developer.mozilla.org/en-US/Learn/Common_questions/What_is_a_URL
然后学什么是world wide web
https://en.wikipedia.org/wiki/World_Wide_Web
然后学什么是HTTP
https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol
HTTP 1.0的协议一定要读: https://www.w3.org/Protocols/Classic.html
然后是HTML
https://en.wikipedia.org/wiki/HTML