返回信息流因为毕设的需要,做了一个新浪微博的爬虫的用户图形界面软件。主要功能就是输入你想要爬取的话题,比如“马航失联”,然后输出此关键词下的最近的相关微博。数据来源是微博自家的搜索站点s.weibo.com。由于微博有反爬虫机制,同一ip每连续请求20次后会要求输入验证码,所以在这个工具里,我使用代理IP的方式来逃避反爬虫。所以整个工具分两大块功能,一是获取有效的代理IP,另外一个就是爬取数据了。
爬取的数据包括:
用户名
用户id
微博id
发送时间
微博文本
转发数量
评论数量
运行时会将关键词在s.weibo.com的搜索结果页面的html文件保存到本地,再对其解析,将结果保存为有标签的txt文件和xml文件。支持设置每个话题爬取的页数。
下面是软件的截图:
界面:
获取有效代理ip:
爬取数据:
txt数据样式:
xml数据样式:
目前只打包了一个可执行jar包,在有jre环境的系统里双击可运行。下载地址:
http://download.csdn.net/download/hainanlxs/7170781
更详细的内容可以浏览我在这里写的几篇文章:
http://blog.csdn.net/codingmirai/article/category/1836377
希望对有数据需要的同学有帮助~
欢迎使用,欢迎反馈bug和交流 T T。。。
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #12732同步于 2014/3/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
【图形界面新浪微博爬虫工具】分享给需要的同学。
hainanlxs
2014/3/30镜像同步76 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
图形界面不能这样设计吧,这只是把选项参数,以及日志输出放到窗口里而已。就像下面这个“图形界面的wget”一样。
图形界面的精髓在和用户交互。起码能够把爬到的微博条目图形化地展示一下也好呀,让用户实时地暂停、继续也好呀。
【 在 hainanlxs 的大作中提到: 】
: 因为毕设的需要,做了一个新浪微博的爬虫的用户图形界面软件。主要功能就是输入你想要爬取的话题,比如“马航失联”,然后输出此关键词下的最近的相关微博。数据来源是微博自家的搜索站点s.weibo.com。由于微博有反爬虫机制,同一ip每连续请求20次后会要求输入验证码,所以在这个工具里,我使用代理IP的方式来逃避反爬虫。所以整个工具分两大块功能,一是获取有效的代理IP,另外一个就是爬取数据了。
: 爬取的数据包括:
: 用户名
: ...................
谢学姐指点!
我这是第一次写界面,很多东西都不会。我今天还真考虑了要不要加暂停的功能,我犯懒了就没加。线程那一块好多都不懂。
由于功能也比较简单,就没做过多的设计了。哭……
【 在 nuanyangyang 的大作中提到: 】
: 图形界面不能这样设计吧,这只是把选项参数,以及日志输出放到窗口里而已。就像下面这个“图形界面的wget”一样。
: 图形界面的精髓在和用户交互。起码能够把爬到的微博条目图形化地展示一下也好呀,让用户实时地暂停、继续也好呀。
: [upload=1][/upload]
: ...................
来自「北邮人论坛手机版」
你好,我是你们学校附近公司的创始人,项目刚获得500w投资,项目是以数据挖掘机器算法为核心的项目。项目简介:媒体,社交,移动,分享这几个关键词。目前公司刚开始没多久,现在组建初创团队,初创团队有股份和薪资待遇。欢迎迎接或者在校有时间的大学生实习,如果看中我们希望留在公司。我的联系方式郭文刚,15302059087.qq1196165140.
你好,我是你们学校附近公司的创始人,项目刚获得500w投资,项目是以数据挖掘机器算法为核心的项目。项目简介:媒体,社交,移动,分享这几个关键词。目前公司刚开始没多久,现在组建初创团队,初创团队有股份和薪资待遇。欢迎迎接或者在校有时间的大学生实习,如果看中我们希望留在公司。我的联系方式郭文刚,15302059087.qq1196165140. 【 在 nuanyangyang 的大作中提到: 】
: 图形界面不能这样设计吧,这只是把选项参数,以及日志输出放到窗口里而已。就像下面这个“图形界面的wget”一样。
: 图形界面的精髓在和用户交互。起码能够把爬到的微博条目图形化地展示一下也好呀,让用户实时地暂停、继续也好呀。
: [upload=1][/upload]
: ...................
可是我不在北邮附近呀。
【 在 gwg6890645 的大作中提到: 】
: 你好,我是你们学校附近公司的创始人,项目刚获得500w投资,项目是以数据挖掘机器算法为核心的项目。项目简介:媒体,社交,移动,分享这几个关键词。目前公司刚开始没多久,现在组建初创团队,初创团队有股份和薪资待遇。欢迎迎接或者在校有时间的大学生实习,如果看中我们希望留在公司。我的联系方式郭文刚,15302059087.qq1196165140. 【 在 nuanyangyang 的大作中提到: 】
暖神,小弟想将python爬虫分布式化,求教建议哈!
还有就是针对目标网站限制IP,除了用代理IP以为,是否有其他方法了?
求教求教[ema23][ema23][ema23][ema23][ema23][ema23]
你在哪?留个联系方式。我联系你,我们其实也不是离北邮很近。只要合适,食宿什么的 都不是问题
【 在 nuanyangyang 的大作中提到: 】
: 可是我不在北邮附近呀。
: