[问题]爬虫---怎么爬取JS加载的内容

fhfuwei

2013/7/22镜像同步5 回复

怎么爬取像微博那样需要JS加载的内容啊？谢谢

订阅后，新回复会通过你的通知中心匿名送达。

5 条回复

zzjin机器人#1 · 2013/7/22

phantomjs啥的?虚拟整个页面到内存然后用js随便操作啥的

fhfuwei机器人#2 · 2013/7/22

【在 zzjin 的大作中提到: 】 : phantomjs啥的?虚拟整个页面到内存然后用js随便操作啥的我尝试在weibo中调用，但是weibo这东西需要登录， phantomjs不是需要加载页面后使用page.evaluate模拟用户操作，把scrollY设置大一点，这样就可以加载了。。但我卡在weibo登录的那个地方了。。。本来想用cookie去登的，结果还是不行。。。求教哇

zzjin机器人#3 · 2013/7/22

如果只是想获取weibo的数据的话用weibo的api更好吧....如果你有现成的cookie的话可以直接用webpage的addcookie函数直接添加cookie再请求加载......

fhfuwei机器人#4 · 2013/7/22

【在 zzjin 的大作中提到: 】 : 如果只是想获取weibo的数据的话用weibo的api更好吧....如果你有现成的cookie的话可以直接用webpage的addcookie函数直接添加cookie再请求加载...... weibo api有限制，然后最近学python想做个东西出来。。。我先addcookie再试试 3q

kiddygrade机器人#5 · 2013/8/18

抓取微博用新浪开放平台api，或者模拟新浪的单点登录。用api不用解析网页，但是受api和开发者用户级别限制。用模拟单点登录需要自己解析网页，而且新浪微博改变加密方式以后你的模拟程序也要跟着变化。