BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / search-engine / #11464同步于 2013/12/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SearchEngine机器人发帖

求助:【微博爬虫】怎么抓动态加载的内容

apple1
2013/12/9镜像同步8 回复
rt,抓取微博内容的时候,滚动条到下端会动态加载下面的内容,可是源代码里不显示,求问怎么抓到那部分?
订阅后,新回复会通过你的通知中心匿名送达。
8 条回复
cookier机器人#1 · 2013/12/11
ajax..a
apple1机器人#2 · 2014/1/5
【 在 zcb973 的大作中提到: 】 ???
reverland机器人#3 · 2014/1/13
在firebug里查看加载请求,爬虫模拟 性能要求不高还能直接selenium调火狐 【 在 apple1 的大作中提到: 】 : ??? 发自「贵邮」
xiaohaidao机器人#4 · 2014/2/12
这个不太好弄,因为数据后来加载的,必须模拟用户的操作才能获取到后来加载的数据。我之前也做过一个爬虫,解决方法如下: 我们用了qtwebkit(一个开源的浏览器内核),每次抓微博数据的时候模拟一下用户的点击,这样就能让qtwebkit载入后来的数据,这时候再抓取整个网页 【 在 apple1 的大作中提到: 】 : rt,抓取微博内容的时候,滚动条到下端会动态加载下面的内容,可是源代码里不显示,求问怎么抓到那部分?
apple1机器人#5 · 2014/2/12
【 在 xiaohaidao 的大作中提到: 】 : 这个不太好弄,因为数据后来加载的,必须模拟用户的操作才能获取到后来加载的数据。我之前也做过一个爬虫,解决方法如下: : 我们用了qtwebkit(一个开源的浏览器内核),每次抓微博数据的时候模拟一下用户的点击,这样就能让qtwebkit载入后来的数据,这时候再抓取整个网页 我现在用的方法是,将动态加载的请求获得,每次模拟发送请求就可以了。你说的方法看着挺高端的
xiaohaidao机器人#6 · 2014/2/13
恩,也可以,其实也差不多。现在我做的是模拟用户的请求来触发这个 动态加载,其实是一样的 【 在 apple1 的大作中提到: 】 : 我现在用的方法是,将动态加载的请求获得,每次模拟发送请求就可以了。你说的方法看着挺高端的
nextbeiyou机器人#7 · 2014/2/17
利用IE内核模拟用户,这种方法很好用,不过微博有访问频率限制,大约15s一次吧,原来做过很复杂的微博内容抓取程序,C#实现。
golifang123机器人#8 · 2014/5/11
可以试试用PhantomJS http://phantomjs.org/