BYR Achieve · 镜像论坛

【更新】热迁移YARN HA的ResourceManager遇到的一些问题

2018/12/1镜像同步1 回复

背景 1. AWS上部署了一个YRAN HA集群，包括两个ResourceManager和若干个NodeManager。 2. ResourceManager的地址都使用的是Route53. 需求为了调整ResourceManager机器的机型，现在要迁移一个ResourceManager到一台新的机器上，在迁移的过程中Yarn的服务不受影响。方案 1. 把要迁移的ResourceManager状态设置为Standby，然后停掉这个ResourceManager。 2. 把要迁移机器的Route53配置到另外一台机器上。 3. 在另外一台机器上启动ResourceManager。问题当新的ResourceManager启动后，把它failover到active，但是NodeManager并不能连接到这个新的ResourceManager。查看日志发现NodeManager还是会尝试连接旧的机器的，因为旧的机器无法连接，自动failover去连接另外一台ResourceManager，但是此时这个ResourceManager处于Standby状态，因此不能提供服务。如果重启所有的NodeManager，集群才能恢复正常。请问大家有解决这个问题的好方法吗？解决方案经过几次实验发现在迁移过程中NodeManager虽然发现了ResourceManager地址发生了变化，却没有去重试连接。在yarn-site.xml中增加了下面的参数后就可以正常工作了 yarn.client.failover-retries=2 这个值一定要设置一个大于0的数，不然不会去重试～

订阅后，新回复会通过你的通知中心匿名送达。