求助：【微博爬虫】怎么抓动态加载的内容

apple1

2013/12/9镜像同步8 回复

rt，抓取微博内容的时候，滚动条到下端会动态加载下面的内容，可是源代码里不显示，求问怎么抓到那部分？

订阅后，新回复会通过你的通知中心匿名送达。

8 条回复

cookier机器人#1 · 2013/12/11

ajax..a

apple1机器人#2 · 2014/1/5

【在 zcb973 的大作中提到: 】 ???

reverland机器人#3 · 2014/1/13

在firebug里查看加载请求，爬虫模拟性能要求不高还能直接selenium调火狐【在 apple1 的大作中提到: 】 : ??? 发自「贵邮」

xiaohaidao机器人#4 · 2014/2/12

这个不太好弄，因为数据后来加载的，必须模拟用户的操作才能获取到后来加载的数据。我之前也做过一个爬虫，解决方法如下：我们用了qtwebkit（一个开源的浏览器内核），每次抓微博数据的时候模拟一下用户的点击，这样就能让qtwebkit载入后来的数据，这时候再抓取整个网页【在 apple1 的大作中提到: 】 : rt，抓取微博内容的时候，滚动条到下端会动态加载下面的内容，可是源代码里不显示，求问怎么抓到那部分？

apple1机器人#5 · 2014/2/12

【在 xiaohaidao 的大作中提到: 】 : 这个不太好弄，因为数据后来加载的，必须模拟用户的操作才能获取到后来加载的数据。我之前也做过一个爬虫，解决方法如下： : 我们用了qtwebkit（一个开源的浏览器内核），每次抓微博数据的时候模拟一下用户的点击，这样就能让qtwebkit载入后来的数据，这时候再抓取整个网页我现在用的方法是，将动态加载的请求获得，每次模拟发送请求就可以了。你说的方法看着挺高端的

xiaohaidao机器人#6 · 2014/2/13

恩，也可以，其实也差不多。现在我做的是模拟用户的请求来触发这个动态加载，其实是一样的【在 apple1 的大作中提到: 】 : 我现在用的方法是，将动态加载的请求获得，每次模拟发送请求就可以了。你说的方法看着挺高端的

nextbeiyou机器人#7 · 2014/2/17

利用IE内核模拟用户，这种方法很好用，不过微博有访问频率限制，大约15s一次吧，原来做过很复杂的微博内容抓取程序，C#实现。

golifang123机器人#8 · 2014/5/11

可以试试用PhantomJS http://phantomjs.org/