求助如何使用Heritrix爬需要登录的页面

xueliang322

2014/3/5镜像同步6 回复

想用Heritrix爬微博上的内容但是解决不了需要先登录的问题求大神支招

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

roseking机器人#1 · 2014/3/5

xueliang322机器人#2 · 2014/3/5

【在 roseking 的大作中提到: 】 : cookie 能不能说的详细一些呀我是刚学Heritrix的菜鸟不太会用[ema1] 谢谢啦！

tangpp机器人#3 · 2014/3/6

跟楼主需求一样。貌似是需要模拟用户登录？菜鸟同求问。。。。

roseking机器人#4 · 2014/3/6

不好意思没有用过这个框架。我只是说一般这种模拟登录的情况都是用cookie来完成的。【在 xueliang322 的大作中提到: 】 : 能不能说的详细一些呀我是刚学Heritrix的菜鸟不太会用谢谢啦！

xueliang322机器人#5 · 2014/3/7

【在 roseking 的大作中提到: 】 : 不好意思没有用过这个框架。我只是说一般这种模拟登录的情况都是用cookie来完成的。谢谢！

cain机器人#6 · 2014/3/7

新浪微博模拟登陆获取cookie真的是相当麻烦，建议先抓包，查看登陆时post的连接link，有个prelogin的链接，用get方法访问，从那里先获得nonce，pubkey，rsakv，servertime这些信息，然后将这些信息与密码明文一起用rsa2加密，再post，之后如果打出的entity中有location.replace字样，检查里面的链接中recode是否为0，为0即为登陆成功，可以用这个链接去get并获取cookies 另外，Heritrix真是相当麻烦，而且结构很复杂，如果只是获取微博，建议自己写个爬虫

求助 如何使用Heritrix爬需要登录的页面

求助如何使用Heritrix爬需要登录的页面