BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #18465同步于 2016/2/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

HBase和Hive的区别是什么?

kuangfengwin
2016/2/17镜像同步11 回复
HBase和Hive的区别是什么? 百度之后还不是很看得懂, 都说hive查询比较慢,一般用于网络日志等数据量大的静态查询,例如用户消费记录等,但不适合联机实时查询, hbase查询快,适用于联机实时查询。 既然hive查询相对慢,那为什么不用hbase去处理离线的日志呢?? 感谢。
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
jiangwan机器人#1 · 2016/2/17
hbase是数据库,Hive是数据仓储
kuangfengwin机器人#2 · 2016/2/17
那如果Hdfs里有txt的文件,我应该如何选择去加载到hive里还是hdfs里? 我知道hbase是数据库,hive相当于一个对hdfs文件系统的操作接口, 但是什么时候应该用hive,什么时候应该用hbase呢? 【 在 jiangwan 的大作中提到: 】 : hbase是数据库,Hive是数据仓储
jiangwan机器人#3 · 2016/2/17
看项目需求,如果需要ms级别的查询响应需求,hive是达不到的,而在数据模式设计好的数据库下是可以的。
kuangfengwin机器人#4 · 2016/2/17
那hive一般用来干嘛呢?hbase相对于hive有什么缺陷呢? 我看网上说hive偏于离线数据分析,可是都没说用hbase代替hive的工作的话有什么缺陷 【 在 jiangwan 的大作中提到: 】 : 看项目需求,如果需要ms级别的查询响应需求,hive是达不到的,而在数据模式设计好的数据库下是可以的。
BackTo2711机器人#5 · 2016/2/17
完全不一样的东西。Hive 你可以把它当做一个支持超大容量的数据库,支持SQL查询,响应在分钟级;Hbase是一个 海量的Key - Value存储,只支持按照Key查询,响应毫秒级。
jiangwan机器人#6 · 2016/2/18
hive本质上就是一个把sql语言翻译成mapreduce的翻译器,所以Hive的效率就是跑mapreduce的效率,他的优点是更灵活。hbase查询模式单一,只有依据key查询时才能体现数据库的优势。 【 在 kuangfengwin (扑通扑通Wind) 的大作中提到: 】 : 那hive一般用来干嘛呢?hbase相对于hive有什么缺陷呢? : 我看网上说hive偏于离线数据分析,可是都没说用hbase代替hive的工作的话有什么缺陷
kuangfengwin机器人#7 · 2016/2/18
这么说我有点明白了,感谢! 【 在 BackTo2711 的大作中提到: 】 : 完全不一样的东西。Hive 你可以把它当做一个支持超大容量的数据库,支持SQL查询,响应在分钟级;Hbase是一个 海量的Key - Value存储,只支持按照Key查询,响应毫秒级。
Julkot机器人#8 · 2016/2/18
hbase是个nosql数据库,使用的时候也是需要建表的,然后你把数据一点点的往里插入,和传统数据库的差别在于是她以key-value方式存储的列式数据库,没有ACID限制,毫秒级的速度。hive是一个数据挖掘的工具,一般情况下,它的数据源是存储在HDFS里的,一般是一些文本文件,比如一些网络的日志等等,本来在没有hive的情况下,如果你想从这些文本了离线挖掘出一些东西来,你需要自己写mapreduce,然后再运行,有了Hive呢,你只要会SQL,它自动把SQL转成mapreduce,然后对文本进行离线挖掘。你不能期望它,速度很快。他很适合那种,隔一段时间做一次统计的东西,执行起来可能几分钟,几小时。 如果想支持快速的SQL查询,可以试试impala。
kuangfengwin机器人#9 · 2016/2/18
嗯,明白了,感谢~~ 【 在 Julkot 的大作中提到: 】 : hbase是个nosql数据库,使用的时候也是需要建表的,然后你把数据一点点的往里插入,和传统数据库的差别在于是她以key-value方式存储的列式数据库,没有ACID限制,毫秒级的速度。hive是一个数据挖掘的工具,一般情况下,它的数据源是存储在HDFS里的,一般是一些文本文件,比如一些网络的日志等等,本来在没有hive的情况下,如果你想从这些文本了离线挖掘出一些东西来,你需要自己写mapreduce,然后再运行,有了Hive呢,你只要会SQL,它自动把SQL转成mapreduce,然后对文本进行离线挖掘。你不能期望它,速度很快。他很适合那种,隔一段时间做一次统计的东西,执行起来可能几分钟,几小时。 如果想支持快速的SQL查询,可以试试impala。