返回信息流最近在琢磨这方面的
但是太迷茫了
求大牛指导交流
这是一条镜像帖。来源:北邮人论坛 / java / #21999同步于 2012/4/4
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
有做过微博爬虫的吗
ocarina
2012/4/4镜像同步1 回复
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
trec会议的microblog track考虑到了语料获取的问题,提供了一些工具。比如这个。
https://github.com/lintool/twitter-corpus-tools
对于twitter来说,API有流量限制。所以要大量语料还是用爬取网页。可以参考trec的这个程序。
需要正文提取可以参考https://github.com/wks/jhql