BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #20630同步于 2016/7/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖

自学大数据开发,求开发机配置

eminemheaton
2016/7/19镜像同步5 回复
想自己玩玩分布式开发,小的hadoop hdfs集群什么的,求推荐开发机配置。不算显示器1万以内吧。 觉得关键是CPU配置吧,需要多个虚拟机。看了下8核的,因特尔最便宜的7千多,买不起啊,AMD便宜非常多了,是不是性能太差了
订阅后,新回复会通过你的通知中心匿名送达。
5 条回复
chen4963机器人#1 · 2016/7/25
这周给一个单位里的部门搭环境,cloudera 的CDH的全套,主要目标是要跑spark,同时能存较大的数据,原始数据在500G左右。 那边提供了两台,每台64G内存(原来是每台16G,一番解释后提升到64),CPUi7的,好像是i76700,硬盘每台2T,然后再每台上面运行两个虚拟机。目前还在导数据阶段,速度应该也还可以,跑复杂点的Spark内存有点捉急。 如果自己测试的话,不装Spark那些,内存不需要这么大,至于CPU,什么型号什么性能不是很懂。不过,个人玩这些,还是好贵啊。
zengraoli机器人#2 · 2016/7/29
不需要太好的配置,总的来说就是一个集群,中心节点稍微好一些即可
crazy1024机器人#3 · 2016/8/9
个人在学大数据,其实16G内存,i7四核足够搭一个完全分布式的环境了,我的电脑配置是我给你描述的配置的一半,不也玩的挺开心的。最好用固态,速度快点。至于企业级的cdh的搭建,看看就行了,那个自己的电脑虚拟机配置再翻一倍基本也很难实现。台式机五千大洋基本就OK啦! 通过『我邮2.0』发布
vickyandb机器人#4 · 2016/8/9
围观学习 发自「贵邮」
icybee机器人#5 · 2016/8/9
为什么需要在同一个机器上部署多个虚拟机?不管是hadoop还是spark都有能力完全利用多核计算机的优势,虚拟机会有10%左右的性能损失,这还不算网络造成的性能损失,如果是考虑环境隔离或者资源隔离完全可以考虑docker或者virtualen之类的方法啊