BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #12732同步于 2014/3/30
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

【图形界面新浪微博爬虫工具】分享给需要的同学。

hainanlxs
2014/3/30镜像同步76 回复
因为毕设的需要,做了一个新浪微博的爬虫的用户图形界面软件。主要功能就是输入你想要爬取的话题,比如“马航失联”,然后输出此关键词下的最近的相关微博。数据来源是微博自家的搜索站点s.weibo.com。由于微博有反爬虫机制,同一ip每连续请求20次后会要求输入验证码,所以在这个工具里,我使用代理IP的方式来逃避反爬虫。所以整个工具分两大块功能,一是获取有效的代理IP,另外一个就是爬取数据了。 爬取的数据包括: 用户名 用户id 微博id 发送时间 微博文本 转发数量 评论数量 运行时会将关键词在s.weibo.com的搜索结果页面的html文件保存到本地,再对其解析,将结果保存为有标签的txt文件和xml文件。支持设置每个话题爬取的页数。 下面是软件的截图: 界面: 获取有效代理ip: 爬取数据: txt数据样式: xml数据样式: 目前只打包了一个可执行jar包,在有jre环境的系统里双击可运行。下载地址: http://download.csdn.net/download/hainanlxs/7170781 更详细的内容可以浏览我在这里写的几篇文章: http://blog.csdn.net/codingmirai/article/category/1836377 希望对有数据需要的同学有帮助~ 欢迎使用,欢迎反馈bug和交流 T T。。。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
vampire24机器人#1 · 2014/3/30
nuanyangyang机器人#2 · 2014/3/30
图形界面不能这样设计吧,这只是把选项参数,以及日志输出放到窗口里而已。就像下面这个“图形界面的wget”一样。 图形界面的精髓在和用户交互。起码能够把爬到的微博条目图形化地展示一下也好呀,让用户实时地暂停、继续也好呀。 【 在 hainanlxs 的大作中提到: 】 : 因为毕设的需要,做了一个新浪微博的爬虫的用户图形界面软件。主要功能就是输入你想要爬取的话题,比如“马航失联”,然后输出此关键词下的最近的相关微博。数据来源是微博自家的搜索站点s.weibo.com。由于微博有反爬虫机制,同一ip每连续请求20次后会要求输入验证码,所以在这个工具里,我使用代理IP的方式来逃避反爬虫。所以整个工具分两大块功能,一是获取有效的代理IP,另外一个就是爬取数据了。 : 爬取的数据包括: : 用户名 : ...................
hainanlxs机器人#3 · 2014/3/30
谢学姐指点! 我这是第一次写界面,很多东西都不会。我今天还真考虑了要不要加暂停的功能,我犯懒了就没加。线程那一块好多都不懂。 由于功能也比较简单,就没做过多的设计了。哭…… 【 在 nuanyangyang 的大作中提到: 】 : 图形界面不能这样设计吧,这只是把选项参数,以及日志输出放到窗口里而已。就像下面这个“图形界面的wget”一样。 : 图形界面的精髓在和用户交互。起码能够把爬到的微博条目图形化地展示一下也好呀,让用户实时地暂停、继续也好呀。 : [upload=1][/upload] : ................... 来自「北邮人论坛手机版」
gwg6890645机器人#4 · 2014/3/31
你好,我是你们学校附近公司的创始人,项目刚获得500w投资,项目是以数据挖掘机器算法为核心的项目。项目简介:媒体,社交,移动,分享这几个关键词。目前公司刚开始没多久,现在组建初创团队,初创团队有股份和薪资待遇。欢迎迎接或者在校有时间的大学生实习,如果看中我们希望留在公司。我的联系方式郭文刚,15302059087.qq1196165140.
gwg6890645机器人#5 · 2014/3/31
你好,我是你们学校附近公司的创始人,项目刚获得500w投资,项目是以数据挖掘机器算法为核心的项目。项目简介:媒体,社交,移动,分享这几个关键词。目前公司刚开始没多久,现在组建初创团队,初创团队有股份和薪资待遇。欢迎迎接或者在校有时间的大学生实习,如果看中我们希望留在公司。我的联系方式郭文刚,15302059087.qq1196165140. 【 在 nuanyangyang 的大作中提到: 】 : 图形界面不能这样设计吧,这只是把选项参数,以及日志输出放到窗口里而已。就像下面这个“图形界面的wget”一样。 : 图形界面的精髓在和用户交互。起码能够把爬到的微博条目图形化地展示一下也好呀,让用户实时地暂停、继续也好呀。 : [upload=1][/upload] : ...................
phantomlyc机器人#6 · 2014/3/31
楼主牛逼啊。。。怒顶!!
nuanyangyang机器人#7 · 2014/3/31
可是我不在北邮附近呀。 【 在 gwg6890645 的大作中提到: 】 : 你好,我是你们学校附近公司的创始人,项目刚获得500w投资,项目是以数据挖掘机器算法为核心的项目。项目简介:媒体,社交,移动,分享这几个关键词。目前公司刚开始没多久,现在组建初创团队,初创团队有股份和薪资待遇。欢迎迎接或者在校有时间的大学生实习,如果看中我们希望留在公司。我的联系方式郭文刚,15302059087.qq1196165140. 【 在 nuanyangyang 的大作中提到: 】
Listjj机器人#8 · 2014/3/31
暖神,小弟想将python爬虫分布式化,求教建议哈! 还有就是针对目标网站限制IP,除了用代理IP以为,是否有其他方法了? 求教求教[ema23][ema23][ema23][ema23][ema23][ema23]
gwg6890645机器人#9 · 2014/3/31
你在哪?留个联系方式。我联系你,我们其实也不是离北邮很近。只要合适,食宿什么的 都不是问题 【 在 nuanyangyang 的大作中提到: 】 : 可是我不在北邮附近呀。 :