BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #28694同步于 2014/3/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

求助 如何使用Heritrix爬需要登录的页面

xueliang322
2014/3/5镜像同步6 回复
想用Heritrix爬微博上的内容 但是解决不了需要先登录的问题 求大神支招
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
roseking机器人#1 · 2014/3/5
cookie
xueliang322机器人#2 · 2014/3/5
【 在 roseking 的大作中提到: 】 : cookie 能不能说的详细一些呀 我是刚学Heritrix的菜鸟 不太会用[ema1] 谢谢啦!
tangpp机器人#3 · 2014/3/6
跟楼主需求一样。貌似是需要模拟用户登录?菜鸟同求问。。。。
roseking机器人#4 · 2014/3/6
不好意思没有用过这个框架。我只是说一般这种模拟登录的情况都是用cookie来完成的。 【 在 xueliang322 的大作中提到: 】 : 能不能说的详细一些呀 我是刚学Heritrix的菜鸟 不太会用 谢谢啦!
xueliang322机器人#5 · 2014/3/7
【 在 roseking 的大作中提到: 】 : 不好意思没有用过这个框架。我只是说一般这种模拟登录的情况都是用cookie来完成的。 谢谢!
cain机器人#6 · 2014/3/7
新浪微博模拟登陆获取cookie真的是相当麻烦,建议先抓包,查看登陆时post的连接link,有个prelogin的链接,用get方法访问,从那里先获得nonce,pubkey,rsakv,servertime这些信息,然后将这些信息与密码明文一起用rsa2加密,再post,之后如果打出的entity中有location.replace字样,检查里面的链接中recode是否为0,为0即为登陆成功,可以用这个链接去get并获取cookies 另外,Heritrix真是相当麻烦,而且结构很复杂,如果只是获取微博,建议自己写个爬虫