返回信息流想用Heritrix爬微博上的内容 但是解决不了需要先登录的问题 求大神支招
这是一条镜像帖。来源:北邮人论坛 / java / #28694同步于 2014/3/5
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
求助 如何使用Heritrix爬需要登录的页面
xueliang322
2014/3/5镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
【 在 roseking 的大作中提到: 】
: cookie
能不能说的详细一些呀 我是刚学Heritrix的菜鸟 不太会用[ema1] 谢谢啦!
不好意思没有用过这个框架。我只是说一般这种模拟登录的情况都是用cookie来完成的。
【 在 xueliang322 的大作中提到: 】
: 能不能说的详细一些呀 我是刚学Heritrix的菜鸟 不太会用 谢谢啦!
新浪微博模拟登陆获取cookie真的是相当麻烦,建议先抓包,查看登陆时post的连接link,有个prelogin的链接,用get方法访问,从那里先获得nonce,pubkey,rsakv,servertime这些信息,然后将这些信息与密码明文一起用rsa2加密,再post,之后如果打出的entity中有location.replace字样,检查里面的链接中recode是否为0,为0即为登陆成功,可以用这个链接去get并获取cookies
另外,Heritrix真是相当麻烦,而且结构很复杂,如果只是获取微博,建议自己写个爬虫