【抓数据时候遇到需要登录以及JS脚本问题】

2012/12/3镜像同步4 回复

1.抓数据的时候需要登录，比如http://slashdot.org/~Vanderhoth/friends。并且登录是用https协议，解决方法有自动登录以及cookie欺骗等。想问下https的自动登录应该怎么写呢（最好能用scrapy）？ 2.如果遇到JS脚本来加载数据的情况，大家是怎么处理的呢？

订阅后，新回复会通过你的通知中心匿名送达。

4 条回复

zzjin机器人#1 · 2012/12/3

phantomjs搞起?

chentingpc机器人#2 · 2012/12/3

谢推荐，这是个好东西，但感觉不是很适合这里的情况吧？抓JS，我的方法是先找到JS取数据的url（比如人人网的查看个人资料就是靠JS来得到数据的），用chrome页面分析拿到url，其实发现url也是符合一定规律的，就可以直接抓了。主要是有些JS要动态运行才能得到动态的url（比如加入时间盐），这样复杂情况下一班咋做捏？【在 zzjin 的大作中提到: 】 : phantomjs搞起?

zzjin机器人#3 · 2012/12/3

真这么复杂了去找他们的开放api不行吗= =....额...噗

chentingpc机器人#4 · 2012/12/3

世界真这么简单就好了。。不是所有网站都有开发api。。【在 zzjin 的大作中提到: 】 : 真这么复杂了去找他们的开放api不行吗= =....额...噗