返回信息流rt,抓取微博内容的时候,滚动条到下端会动态加载下面的内容,可是源代码里不显示,求问怎么抓到那部分?
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11464同步于 2013/12/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖
求助:【微博爬虫】怎么抓动态加载的内容
apple1
2013/12/9镜像同步8 回复
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
在firebug里查看加载请求,爬虫模拟
性能要求不高还能直接selenium调火狐
【 在 apple1 的大作中提到: 】
: ???
发自「贵邮」
这个不太好弄,因为数据后来加载的,必须模拟用户的操作才能获取到后来加载的数据。我之前也做过一个爬虫,解决方法如下:
我们用了qtwebkit(一个开源的浏览器内核),每次抓微博数据的时候模拟一下用户的点击,这样就能让qtwebkit载入后来的数据,这时候再抓取整个网页
【 在 apple1 的大作中提到: 】
: rt,抓取微博内容的时候,滚动条到下端会动态加载下面的内容,可是源代码里不显示,求问怎么抓到那部分?
【 在 xiaohaidao 的大作中提到: 】
: 这个不太好弄,因为数据后来加载的,必须模拟用户的操作才能获取到后来加载的数据。我之前也做过一个爬虫,解决方法如下:
: 我们用了qtwebkit(一个开源的浏览器内核),每次抓微博数据的时候模拟一下用户的点击,这样就能让qtwebkit载入后来的数据,这时候再抓取整个网页
我现在用的方法是,将动态加载的请求获得,每次模拟发送请求就可以了。你说的方法看着挺高端的
恩,也可以,其实也差不多。现在我做的是模拟用户的请求来触发这个 动态加载,其实是一样的
【 在 apple1 的大作中提到: 】
: 我现在用的方法是,将动态加载的请求获得,每次模拟发送请求就可以了。你说的方法看着挺高端的