对hadoop的几个疑问

2016/1/17镜像同步6 回复

做了快2年的java web，有点失去兴趣了，越来越觉得没什么可做的，成熟方案很多。工作之余看了点hadoop系列，想慢慢往这方面转，但是遇到这么几个问题没搞清楚：（1）hadoop系列产品跟各种算法或者说数据挖掘、机器学习等等的关系是什么？是不是hadoop只是一种计算的工具呢？就像matlab一样（2）脱离算法是不是就脱离了大数据的核心？（3）分布式计算这个方向之一是否就是指hadoop的实现，例如hadoop平台的搭建、运维、优化？（4）对数据挖掘、机器学习没有天赋的情况下，还想转大数据，只能做基础平台建设吗？这方面有什么建议吗？认识有限，问题也可能不太明确，求大神带

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

iamluo机器人#1 · 2016/1/17

第一次听到hadoop就觉得这名字好萌……可惜一直没去研究

NotEnough机器人#2 · 2016/1/17

之前参与过一些 hadoop 数据平台的工作，但时间并不长，简单说一下。 hadoop 家族和数据挖掘、机器学习没什么关系，也基本不会不涉及到复杂的算法。接触到有同事做过图像识别，算法确实是机器学习中非常核心的部分，并且难度非常大。 hadoop 应用方向是做企业级的数据仓库，对于国内上了点规模的互联网公司来说都已经有自己的数据平台。Hadooop、Spark 技术方案应用在国内已经很成熟了，一般主流的应用方式不存在太大的技术难点。另外大数据不是很多人想象的那么神奇和风光，至少对于目前的互联网的应用范围来说，更多的是为了解决海量数据的问题。hadoop 等技术出现的一个很重要的原因就是，磁盘IO速度限制了计算机的处理速度。百T千T级的数据量使用传统的方式是很难快速处理的，但其实对于多数的互联网公司来说，多数公司每日的数据量是远没有达到T级别的。

hero210700机器人#3 · 2016/1/17

【在 NotEnough 的大作中提到: 】 : 之前参与过一些 hadoop 数据平台的工作，但时间并不长，简单说一下。 : hadoop 家族和数据挖掘、机器学习没什么关系，也基本不会不涉及到复杂的算法。接触到有同事做过图像识别，算法确实是机器学习中非常核心的部分，并且难度非常大。 : hadoop 应用方向是做企业级的数据仓库，对于国内上了点规模的互联网公司来说都已经有自己的数据平台。Hadooop、Spark 技术方案应用在国内已经很成熟了，一般主流的应用方式不存在太大的技术难点。 : ................... 多谢多谢 btw，方便透露一下数据平台都有哪些方向？转分布式计算是不是就不需要研究各种算法了，而是转向分布式技术本身的开发？

icybee机器人#4 · 2016/1/17

摸摸头，hadoop是一个分布式计算解决方案，matlab是一种语言，也可以表示一个matlab语言的集成开发环境，然而hadoop程序可以用任何语言开发。第二个问题我的主观感觉是不是，搞大数据的有很大一部分也是偏工程的，真正偏算法的在一个公司里也很少，百度也就idl和nlp部门的一小撮。第三个问题没看懂，嗯，听起来是在说OP做的一些事。最后一个问题也没看懂，嗯。另，安利python

YUEYE机器人#5 · 2016/1/18

在机器学习版块已经有人问过这个问题了。最清楚的解释也被点赞到了最高。大数据，称之为big data。分为两个：data engineer，data scientist。所谓的两者的差距其实只是所占百分比不同，比如前者相对于后者对ML的要求百分比就低，对Hadoop的相关技术要求就高。但是，由于很多人不能搞懂这么多，所以，流传了一个：我是做数据挖掘的，我不需要知道Hadoop，spark那些东西。或者，我是做Hadoop的工程师，我不需要会ml那一堆理论知识。下面给你那篇文章： http://bbs.byr.cn/#!article/ML_DM/17339 你看那个7个赞那个和我回复的那个。

hero210700机器人#6 · 2016/1/18

大赞！多谢【在 YUEYE 的大作中提到: 】 : 在机器学习版块已经有人问过这个问题了。最清楚的解释也被点赞到了最高。 : : 大数据，称之为big data。分为两个：data engineer，data scientist。所谓的两者的差距其实只是所占百分比不同，比如前者相对于后者对ML的要求百分比就低，对Hadoop的相关技术要求就高。 : ...................