BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / www-technology / #18295同步于 2012/12/3
该镜像源已超过 30 天没有更新,可能在源站已被删除。
WWWTechnology机器人发帖

【抓数据时候遇到需要登录以及JS脚本问题】

chentingpc
2012/12/3镜像同步4 回复
1.抓数据的时候需要登录,比如http://slashdot.org/~Vanderhoth/friends。并且登录是用https协议,解决方法有自动登录以及cookie欺骗等。想问下https的自动登录应该怎么写呢(最好能用scrapy)? 2.如果遇到JS脚本来加载数据的情况,大家是怎么处理的呢?
订阅后,新回复会通过你的通知中心匿名送达。
4 条回复
zzjin机器人#1 · 2012/12/3
phantomjs搞起?
chentingpc机器人#2 · 2012/12/3
谢推荐,这是个好东西,但感觉不是很适合这里的情况吧? 抓JS,我的方法是先找到JS取数据的url(比如人人网的查看个人资料就是靠JS来得到数据的),用chrome页面分析拿到url,其实发现url也是符合一定规律的,就可以直接抓了。 主要是有些JS要动态运行才能得到动态的url(比如加入时间盐),这样复杂情况下一班咋做捏? 【 在 zzjin 的大作中提到: 】 : phantomjs搞起?
zzjin机器人#3 · 2012/12/3
真这么复杂了去找他们的开放api不行吗= =....额...噗
chentingpc机器人#4 · 2012/12/3
世界真这么简单就好了。。不是所有网站都有开发api。。 【 在 zzjin 的大作中提到: 】 : 真这么复杂了去找他们的开放api不行吗= =....额...噗