返回信息流我在华为,最近搭建了一个大规模集群,有3000多个节点,基本性能可以,也可以跑简单任务。领导要求汇报时跟其他互联网厂商友商比较一下水平。让我自己去搜集信息,这特么就难为人了~~
网上搜不到相关的信息,问各厂的朋友们,也大部分不太了解。所以得求助一下各位在各大公司上班的校友们,有没有了解自家公司情况的,可否告知自己公司最大的hadoop集群规模,包括已经在使用的或者在试验搭建的都行!回复一下自己家的公司、节点规模和性能等呗~~
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #22564同步于 2017/2/7
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
互联网各大公司的最大的hadoop集群,现在到什么规模,各位可否
sekingme
2017/2/7镜像同步10 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
腾讯最大单节点的hadoop是8800。阿里也基本接近1万。百度也是接近1万。楼上有说百度10万节点的,不科学。就单集群而言,目前bat三家基本接近1 万,就性能和服务拓展性而言,腾讯最佳。京东据说4000。
【 在 sekingme (Seking) 的大作中提到: 】
: 我在华为,最近搭建了一个大规模集群,有3000多个节点,基本性能可以,也可以跑简单任务。领导要求汇报时跟其他互联网厂商友商比较一下水平。让我自己去搜集信息,这特么就难为人了~~
: 网上搜不到相关的信息,问各厂的朋友们,也大部分不太了解。所以得求助一下各位在各大公司上班的校友们,有没有了解自家公司情况的,可否告知自己公司最大的hadoop集群规模,包括已经在使用的或者在试验搭建的都行!回复一下自己家的公司、节点规模和性能等呗~~
通过『我邮2.0』发布
一般而言,当hadoop节点超过3000.基本属于超大规模Hadoop集群。目前国内有这样实力的,大概也就BAT,美团,京东,360吧。新浪网易小米目测不会超过1000.衡量好坏主要从以下几个角度考虑:
一、稳定性。这个最重要,超大规模集群基本是公司基础设施,一有任何的波动,业务方就会感知。3000节点以上,基本业务job不会太少。HDFS的元数据量会骤增,对jvm Gc有很大的挑战,需要开启federatition。如果是单节点master,Yarn的调度性能也是非常大的问题。代码明明没有问题,在巨大数据量面前到处是bug。在计算层面,spark会出现很多问题,oom,driver hung住等等。
二、拓展性。因为hadoop生态越来越繁荣。能否支持多种计算框架就成为一个刚需。不仅仅是跑mr,还有spark,还有长服务,对于系统的拓展性又有挑战。需要在资源的隔离上做出巨大的突破。
【 在 sekingme 的大作中提到: 】
: 我在华为,最近搭建了一个大规模集群,有3000多个节点,基本性能可以,也可以跑简单任务。领导要求汇报时跟其他互联网厂商友商比较一下水平。让我自己去搜集信息,这特么就难为人了~~
: 网上搜不到相关的信息,问各厂的朋友们,也大部分不太了解。所以得求助一下各位在各大公司上班的校友们,有没有了解自家公司情况的,可否告知自己公司最大的hadoop集群规模,包括已经在使用的或者在试验搭建的都行!回复一下自己家的公司、节点规模和性能等呗~~