返回信息流目前公司有自己的大数据平台,规模有几百台服务器。但是缺少一个实时可视化反应集群处理性能和状态的“插件”,比方说某人跑一个任务,花费了10分钟,这10分钟对他来说是正常速度还是非正常速度,此时的集群处理能力又能从什么指标上来反应?
我查了有说hue、ganglia等插件的,这些插件有同学用过吗?能达什么效果呢?或者说有没有更好的办法[ema1][ema1]求帮助
这是一条镜像帖。来源:北邮人论坛 / java / #60284同步于 2018/9/29
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖
【大数据相关】求帮助~
Yu8866
2018/9/29镜像同步17 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
【 在 nanguohao 的大作中提到: 】
: 你们自己写的架构?还是说用了hadoop,spark之类的,后者不是都带了基本的web ui吗
想要的效果是:有一个或者一种指标能实时更新并反应集群运算能力,这些自带的web界面做不到额[ema1]
不懂啊,一般都是监测集群是否处于健康状态,资源是否充足够用,任务是否能够在一定时间内完成。
不同的任务执行的复杂度不同,不好针对任务反映计算能力。可能是我了解的少吧,如果是计算集群
可能有专门的算力指标。一般的大数据架构应该都带有度量接口能够查看比web ui更丰富的信息,可以
看一下你们是用的架构文档里有没有相应指标。
【 在 Yu8866 的大作中提到: 】
: 想要的效果是:有一个或者一种指标能实时更新并反应集群运算能力,这些自带的web界面做不到额
【 在 fuxuemingzhu 的大作中提到: 】
: 进楼学习。360开源的深度学习调度平台,XLearning,不知道是不是楼主要找的。
谢谢[ema21]不知道是不是我需要的,去研究研究[ema11]
【 在 nanguohao 的大作中提到: 】
: 不懂啊,一般都是监测集群是否处于健康状态,资源是否充足够用,任务是否能够在一定时间内完成。
: 不同的任务执行的复杂度不同,不好针对任务反映计算能力。可能是我了解的少吧,如果是计算集群
: 可能有专门的算力指标。一般的大数据架构应该都带有度量接口能够查看比web ui更丰富的信息,可以
: ...................
其实想要获得的就是你所提到的“算力指标”,不明白大数据集群里边的那些算力指标才能反映集群的当前性能,想要实现的功能就是能实时的看到这些“算力指标”[ema34]
不同的任务逻辑不一样,不好比较,而且多个任务之间会相互影响。如果是定时的批处理任务的话可以在一个长时间线上看一下性能是否有变化。集群负载高或者不健康速度可能会下降。健康和任务资源充足的集群同一个任务多次运行时间相差应该不会太大。
大数据架构之间会用一些数据集和固定任务来相互比较一下性能,比如对大规模的数据进行排序。如果可以接受,可以定时运行大数据的排序任务,看时间损耗。但是我觉得没这个必要,资源紧张的情况下还要运行额外的性能任务,得不偿失。
【 在 Yu8866 的大作中提到: 】
: 其实想要获得的就是你所提到的“算力指标”,不明白大数据集群里边的那些算力指标才能反映集群的当前性能,想要实现的功能就是能实时的看到这些“算力指标”
【 在 nanguohao 的大作中提到: 】
: 不同的任务逻辑不一样,不好比较,而且多个任务之间会相互影响。如果是定时的批处理任务的话可以在一个长时间线上看一下性能是否有变化。集群负载高或者不健康速度可能会下降。健康和任务资源充足的集群同一个任务多次运行时间相差应该不会太大。
: 大数据架构之间会用一些数据集和固定任务来相互比较一下性能,比如对大规模的数据进行排序。如果可以接受,可以定时运行大数据的排序任务,看时间损耗。但是我觉得没这个必要,资源紧张的情况下还要运行额外的性能任务,得不偿失。
是的,确实任务逻辑不一样不好比较。是不是说想找一个或一些统一的指标来实时反应集群运算性能不太可行[ema1]
本着严谨的态度,不好下确切定论。就对于一台电脑来说,如果表征它的计算性能呢?
【 在 Yu8866 的大作中提到: 】
: 是的,确实任务逻辑不一样不好比较。是不是说想找一个或一些统一的指标来实时反应集群运算性能不太可行