BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #21104同步于 2013/7/22
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

[问题]爬虫---怎么爬取JS加载的内容

fhfuwei
2013/7/22镜像同步5 回复
怎么爬取像微博那样需要JS加载的内容啊?谢谢
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
zzjin机器人#1 · 2013/7/22
phantomjs啥的?虚拟整个页面到内存然后用js随便操作啥的
fhfuwei机器人#2 · 2013/7/22
【 在 zzjin 的大作中提到: 】 : phantomjs啥的?虚拟整个页面到内存然后用js随便操作啥的 我尝试在weibo中调用,但是weibo这东西需要登录, phantomjs不是需要加载页面后使用page.evaluate模拟用户操作,把scrollY设置大一点,这样就可以加载了。。但我卡在weibo登录的那个地方了。。。本来想用cookie去登的,结果还是不行。。。求教哇
zzjin机器人#3 · 2013/7/22
如果只是想获取weibo的数据的话用weibo的api更好吧....如果你有现成的cookie的话可以直接用webpage的addcookie函数直接添加cookie再请求加载......
fhfuwei机器人#4 · 2013/7/22
【 在 zzjin 的大作中提到: 】 : 如果只是想获取weibo的数据的话用weibo的api更好吧....如果你有现成的cookie的话可以直接用webpage的addcookie函数直接添加cookie再请求加载...... weibo api有限制,然后最近学python想做个东西出来。。。 我先addcookie再试试 3q
kiddygrade机器人#5 · 2013/8/18
抓取微博用新浪开放平台api,或者模拟新浪的单点登录。 用api不用解析网页,但是受api和开发者用户级别限制。 用模拟单点登录需要自己解析网页,而且新浪微博改变加密方式以后你的模拟程序也要跟着变化。