返回信息流做了快2年的java web,有点失去兴趣了,越来越觉得没什么可做的,成熟方案很多。
工作之余看了点hadoop系列,想慢慢往这方面转,但是遇到这么几个问题没搞清楚:
(1)hadoop系列产品跟各种算法或者说数据挖掘、机器学习等等的关系是什么? 是不是hadoop只是一种计算的工具呢?就像matlab一样
(2)脱离算法是不是就脱离了大数据的核心?
(3)分布式计算这个方向之一是否就是指hadoop的实现,例如hadoop平台的搭建、运维、优化?
(4)对数据挖掘、机器学习没有天赋的情况下,还想转大数据,只能做基础平台建设吗?这方面有什么建议吗?
认识有限,问题也可能不太明确,求大神带
这是一条镜像帖。来源:北邮人论坛 / java / #47384同步于 2016/1/17
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
对hadoop的几个疑问
hero210700
2016/1/17镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
之前参与过一些 hadoop 数据平台的工作,但时间并不长,简单说一下。
hadoop 家族和数据挖掘、机器学习没什么关系,也基本不会不涉及到复杂的算法。接触到有同事做过图像识别,算法确实是机器学习中非常核心的部分,并且难度非常大。
hadoop 应用方向是做企业级的数据仓库,对于国内上了点规模的互联网公司来说都已经有自己的数据平台。Hadooop、Spark 技术方案应用在国内已经很成熟了,一般主流的应用方式不存在太大的技术难点。
另外大数据不是很多人想象的那么神奇和风光,至少对于目前的互联网的应用范围来说,更多的是为了解决海量数据的问题。hadoop 等技术出现的一个很重要的原因就是,磁盘IO速度限制了计算机的处理速度。百T千T级的数据量使用传统的方式是很难快速处理的,但其实对于多数的互联网公司来说,多数公司每日的数据量是远没有达到T级别的。
【 在 NotEnough 的大作中提到: 】
: 之前参与过一些 hadoop 数据平台的工作,但时间并不长,简单说一下。
: hadoop 家族和数据挖掘、机器学习没什么关系,也基本不会不涉及到复杂的算法。接触到有同事做过图像识别,算法确实是机器学习中非常核心的部分,并且难度非常大。
: hadoop 应用方向是做企业级的数据仓库,对于国内上了点规模的互联网公司来说都已经有自己的数据平台。Hadooop、Spark 技术方案应用在国内已经很成熟了,一般主流的应用方式不存在太大的技术难点。
: ...................
多谢多谢
btw,方便透露一下数据平台都有哪些方向? 转分布式计算是不是就不需要研究各种算法了,而是转向分布式技术本身的开发?
摸摸头,hadoop是一个分布式计算解决方案,matlab是一种语言,也可以表示一个matlab语言的集成开发环境,然而hadoop程序可以用任何语言开发。第二个问题我的主观感觉是不是,搞大数据的有很大一部分也是偏工程的,真正偏算法的在一个公司里也很少,百度也就idl和nlp部门的一小撮。第三个问题没看懂,嗯,听起来是在说OP做的一些事。最后一个问题也没看懂,嗯。
另,安利python
在机器学习版块已经有人问过这个问题了。最清楚的解释也被点赞到了最高。
大数据,称之为big data。分为两个:data engineer,data scientist。所谓的两者的差距其实只是所占百分比不同,比如前者相对于后者对ML的要求百分比就低,对Hadoop的相关技术要求就高。
但是,由于很多人不能搞懂这么多,所以,流传了一个:我是做数据挖掘的,我不需要知道Hadoop,spark那些东西。 或者,我是做Hadoop的工程师,我不需要会ml那一堆理论知识。
下面给你那篇文章:
http://bbs.byr.cn/#!article/ML_DM/17339
你看那个7个赞那个和我回复的那个。
大赞!多谢
【 在 YUEYE 的大作中提到: 】
: 在机器学习版块已经有人问过这个问题了。最清楚的解释也被点赞到了最高。
:
: 大数据,称之为big data。分为两个:data engineer,data scientist。所谓的两者的差距其实只是所占百分比不同,比如前者相对于后者对ML的要求百分比就低,对Hadoop的相关技术要求就高。
: ...................