发布开源爬虫工具Hawk和etlpy

2016/6/8镜像同步17 回复

HAWK是一种数据采集和清洗工具，依据GPL协议开源，能够灵活，有效地采集来自网页，数据库，文件，并通过可视化地拖拽，快速地进行生成，过滤，转换等操作。其功能最适合的领域，是爬虫和数据清洗。 Hawk的含义为“鹰”，能够高效，准确地捕杀猎物。 HAWK使用C# 编写，其前端界面使用WPF开发，支持插件扩展。通过图形化操作，能够快速建立解决方案。 GitHub地址：https://github.com/ferventdesert/Hawk 其Python等价的实现是etlpy: http://www.cnblogs.com/buptzym/p/5320552.html etlpy是python编写的网页数据抓取和清洗工具，核心文件etl.py不超过500行，具备如下特点爬虫和清洗逻辑基于xml定义，不需手工编写基于python生成器，流式处理，对内存无要求内置线程池，支持串行和并行处理内置正则解析，html转义，json转换等数据清洗功能，直接输出可用文件插件式设计，能够非常方便地增加其他文件和数据库格式能够支持几乎一切网站，能自动填入cookie 笔者专门为其开发的工程文件已公开在GitHub: https://github.com/ferventdesert/Hawk-Projects 诚邀各位校友一起完善hawk和etlpy，有兴趣者可以在Github上留言或站内

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

ztinpn机器人#1 · 2016/6/8

赞！不登录情况下能抓新浪微博嘛？

buptzym机器人#2 · 2016/6/8

微博没有做过测试，数据肯定能获取，只是超过一定数量就被封禁了【在 ztinpn 的大作中提到: 】 : 赞！ : 不登录情况下能抓新浪微博嘛？

nuanyangyang机器人#3 · 2016/6/8

帮顶一下。来爬爬北邮人吧。话说以前做过一个类似的爬虫，但我用spring配置。

ztinpn机器人#4 · 2016/6/8

微博的反爬虫很恶心，我一条也获取不到。。。【在 buptzym ([刘海要齐更要厚] 热情的沙漠) 的大作中提到: 】 : 微博没有做过测试，数据肯定能获取，只是超过一定数量就被封禁了

ztinpn机器人#5 · 2016/6/8

建议测试下咯，毕竟微博是非常重要的信息源【在 buptzym ([刘海要齐更要厚] 热情的沙漠) 的大作中提到: 】 : 微博没有做过测试，数据肯定能获取，只是超过一定数量就被封禁了

bzz机器人#6 · 2016/6/9

[ema3][ema3]师兄你的头像

binux机器人#7 · 2016/6/9

又一个 xpath 生成器，已经腻了。。你们就没想过自动分析页面上哪些内容是重要的，然后自动提取出来吗？

buptzym机器人#8 · 2016/6/11

http://www.cnblogs.com/buptzym/p/5454190.html 我开发的这个工具就是自动分析的【在 binux 的大作中提到: 】 : 又一个 xpath 生成器，已经腻了。。 : 你们就没想过自动分析页面上哪些内容是重要的，然后自动提取出来吗？

binux机器人#9 · 2016/6/11

哪里自动分析了？「由于软件不知道到底要获取哪些内容，因此需要手工给定几个关键字，让Hawk搜索关键字，并获取位置。「【在 buptzym 的大作中提到: 】 : http://www.cnblogs.com/buptzym/p/5454190.html : 我开发的这个工具就是自动分析的