返回信息流怎么爬取像微博那样需要JS加载的内容啊?谢谢
这是一条镜像帖。来源:北邮人论坛 / www-technology / #21104同步于 2013/7/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
[问题]爬虫---怎么爬取JS加载的内容
fhfuwei
2013/7/22镜像同步5 回复
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
【 在 zzjin 的大作中提到: 】
: phantomjs啥的?虚拟整个页面到内存然后用js随便操作啥的
我尝试在weibo中调用,但是weibo这东西需要登录,
phantomjs不是需要加载页面后使用page.evaluate模拟用户操作,把scrollY设置大一点,这样就可以加载了。。但我卡在weibo登录的那个地方了。。。本来想用cookie去登的,结果还是不行。。。求教哇
如果只是想获取weibo的数据的话用weibo的api更好吧....如果你有现成的cookie的话可以直接用webpage的addcookie函数直接添加cookie再请求加载......
【 在 zzjin 的大作中提到: 】
: 如果只是想获取weibo的数据的话用weibo的api更好吧....如果你有现成的cookie的话可以直接用webpage的addcookie函数直接添加cookie再请求加载......
weibo api有限制,然后最近学python想做个东西出来。。。
我先addcookie再试试
3q
抓取微博用新浪开放平台api,或者模拟新浪的单点登录。
用api不用解析网页,但是受api和开发者用户级别限制。
用模拟单点登录需要自己解析网页,而且新浪微博改变加密方式以后你的模拟程序也要跟着变化。