利用Python爬取新浪微博内容

2015/7/28镜像同步11 回复

最近一直在做爬取新浪微博的相关内容，已经成功模拟登录（利用的是urllib库进行的），微博是动态加载的，爬取下来的只是html的内容。后面想到利用phantomjs或者selenium来加载动态信息，但利用这些又无法模拟登录。不知道有没有大神做过类似的项目？

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

namowen机器人#1 · 2015/7/31

利用这些怎么无法登陆了？？

wangzd91机器人#2 · 2015/8/2

我意思是如何利用phantomjs实现模拟登陆呢？【在 namowen 的大作中提到: 】 : 利用这些怎么无法登陆了？？

shaonianpai机器人#3 · 2015/8/6

只要数据的话，直接爬手机端的就好了发自「贵邮」

shuian0930机器人#4 · 2015/8/7

selenium就是模拟浏览器的，登陆是绝对可以的通过『我邮2.0』发布

realfreesky机器人#5 · 2015/8/7

直接爬手机版的微博就好了，数据反正是一样的，那样模拟登陆直接用cookies就能实现了

wangzd91机器人#6 · 2015/8/7

恩，对，已经开始爬手机版的了。 selenium登录的机制和urllib利用cookie登录的不一样。最开始是试图将urllib模拟登录的结果给到selenium里，让他直接爬动态页面，不用考虑登录，但是失败了。。。

longxia520机器人#7 · 2015/8/7

你可以搜一下一个叫做cola 的爬虫还可以。。

jelling机器人#8 · 2015/8/16

新浪微博api

WinU机器人#9 · 2015/8/17

顶8楼用微博api做吧，获得OAuth权限之后就可以随便用api了发自「贵邮」