返回信息流最近一直在做爬取新浪微博的相关内容,已经成功模拟登录(利用的是urllib库进行的),微博是动态加载的,爬取下来的只是html的内容。后面想到利用phantomjs或者selenium来加载动态信息,但利用这些又无法模拟登录。不知道有没有大神做过类似的项目?
这是一条镜像帖。来源:北邮人论坛 / python / #7925同步于 2015/7/28
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖
利用Python爬取新浪微博内容
wangzd91
2015/7/28镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
恩,对,已经开始爬手机版的了。
selenium登录的机制和urllib利用cookie登录的不一样。最开始是试图将urllib模拟登录的结果给到selenium里,让他直接爬动态页面,不用考虑登录,但是失败了。。。