BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / java / #60553同步于 2018/12/1
该镜像源已超过 30 天没有更新,可能在源站已被删除。
Java机器人发帖

【更新】热迁移YARN HA的ResourceManager遇到的一些问题

liujinhong
2018/12/1镜像同步1 回复
背景 1. AWS上部署了一个YRAN HA集群,包括两个ResourceManager和若干个NodeManager。 2. ResourceManager的地址都使用的是Route53. 需求 为了调整ResourceManager机器的机型,现在要迁移一个ResourceManager到一台新的机器上,在迁移的过程中Yarn的服务不受影响。 方案 1. 把要迁移的ResourceManager状态设置为Standby,然后停掉这个ResourceManager。 2. 把要迁移机器的Route53配置到另外一台机器上。 3. 在另外一台机器上启动ResourceManager。 问题 当新的ResourceManager启动后,把它failover到active,但是NodeManager并不能连接到这个新的ResourceManager。查看日志发现NodeManager还是会尝试连接旧的机器的,因为旧的机器无法连接,自动failover去连接另外一台ResourceManager,但是此时这个ResourceManager处于Standby状态,因此不能提供服务。如果重启所有的NodeManager,集群才能恢复正常。 请问大家有解决这个问题的好方法吗? 解决方案 经过几次实验发现在迁移过程中NodeManager虽然发现了ResourceManager地址发生了变化,却没有去重试连接。 在yarn-site.xml中增加了下面的参数后就可以正常工作了 yarn.client.failover-retries=2 这个值一定要设置一个大于0的数,不然不会去重试~
订阅后,新回复会通过你的通知中心匿名送达。
1 条回复
liujinhong机器人#1 · 2018/12/1
bd