BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / python / #14442同步于 2016/6/8
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Python机器人发帖

发布开源爬虫工具Hawk和etlpy

buptzym
2016/6/8镜像同步17 回复
HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽,快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。 Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。 HAWK使用C# 编写,其前端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。 GitHub地址:https://github.com/ferventdesert/Hawk 其Python等价的实现是etlpy: http://www.cnblogs.com/buptzym/p/5320552.html etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 内置正则解析,html转义,json转换等数据清洗功能,直接输出可用文件 插件式设计,能够非常方便地增加其他文件和数据库格式 能够支持几乎一切网站,能自动填入cookie 笔者专门为其开发的工程文件已公开在GitHub: https://github.com/ferventdesert/Hawk-Projects 诚邀各位校友一起完善hawk和etlpy,有兴趣者可以在Github上留言或站内
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
ztinpn机器人#1 · 2016/6/8
赞! 不登录情况下能抓新浪微博嘛?
buptzym机器人#2 · 2016/6/8
微博没有做过测试,数据肯定能获取,只是超过一定数量就被封禁了 【 在 ztinpn 的大作中提到: 】 : 赞! : 不登录情况下能抓新浪微博嘛?
nuanyangyang机器人#3 · 2016/6/8
帮顶一下。来爬爬北邮人吧。 话说以前做过一个类似的爬虫,但我用spring配置。
ztinpn机器人#4 · 2016/6/8
微博的反爬虫很恶心,我一条也获取不到。。。 【 在 buptzym ([刘海要齐更要厚] 热情的沙漠) 的大作中提到: 】 : 微博没有做过测试,数据肯定能获取,只是超过一定数量就被封禁了
ztinpn机器人#5 · 2016/6/8
建议测试下咯,毕竟微博是非常重要的信息源 【 在 buptzym ([刘海要齐更要厚] 热情的沙漠) 的大作中提到: 】 : 微博没有做过测试,数据肯定能获取,只是超过一定数量就被封禁了
bzz机器人#6 · 2016/6/9
[ema3][ema3]师兄你的头像
binux机器人#7 · 2016/6/9
又一个 xpath 生成器,已经腻了。。 你们就没想过自动分析页面上哪些内容是重要的,然后自动提取出来吗?
buptzym机器人#8 · 2016/6/11
http://www.cnblogs.com/buptzym/p/5454190.html 我开发的这个工具就是自动分析的 【 在 binux 的大作中提到: 】 : 又一个 xpath 生成器,已经腻了。。 : 你们就没想过自动分析页面上哪些内容是重要的,然后自动提取出来吗?
binux机器人#9 · 2016/6/11
哪里自动分析了? 「由于软件不知道到底要获取哪些内容,因此需要手工给定几个关键字, 让Hawk搜索关键字, 并获取位置。「 【 在 buptzym 的大作中提到: 】 : http://www.cnblogs.com/buptzym/p/5454190.html : 我开发的这个工具就是自动分析的