返回信息流1.抓数据的时候需要登录,比如http://slashdot.org/~Vanderhoth/friends。并且登录是用https协议,解决方法有自动登录以及cookie欺骗等。想问下https的自动登录应该怎么写呢(最好能用scrapy)?
2.如果遇到JS脚本来加载数据的情况,大家是怎么处理的呢?
这是一条镜像帖。来源:北邮人论坛 / www-technology / #18295同步于 2012/12/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖
【抓数据时候遇到需要登录以及JS脚本问题】
chentingpc
2012/12/3镜像同步4 回复
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
谢推荐,这是个好东西,但感觉不是很适合这里的情况吧?
抓JS,我的方法是先找到JS取数据的url(比如人人网的查看个人资料就是靠JS来得到数据的),用chrome页面分析拿到url,其实发现url也是符合一定规律的,就可以直接抓了。
主要是有些JS要动态运行才能得到动态的url(比如加入时间盐),这样复杂情况下一班咋做捏?
【 在 zzjin 的大作中提到: 】
: phantomjs搞起?
世界真这么简单就好了。。不是所有网站都有开发api。。
【 在 zzjin 的大作中提到: 】
: 真这么复杂了去找他们的开放api不行吗= =....额...噗