bdb过大,3FE因为其中一台机器故障导致fe启动不了,选定了一个fe作为master重新租了集群

Viewed 17

重组集群(新建了原数据目录)后bdb依旧很大,可能是因为没有执行drop,老master不停的提示无法连接旧的FE(一直有告警get bad heartbeat response: type: FRONTEND, status: BAD, msg: java.net.ConnectException: Connection refused )。请问这种情况应该如何修复?

1 Answers
  1. bdb 过大的情况一般有几个:
    a. FE JVM 使用过高超过 70% ,导致不会做 checkpoint ,导致bdb 中元数据堆积。这种情况需要看FE JVM 是否有泄漏,或者是并发太高,或者导入太多,导致FE 负载高太高,判断需不需要多给一些内存资源。
    b. 使用 CCR ,低版本有问题,如果使用了CCR,开启CCR的表没有正常修改binlog的过期时间,会导致大量的binlog 占用内存资源。这种情况可以:show proc "/binlog" 查看。

  2. “重组集群” 没理解,是集群重建还是什么?还是使用了meta recovery?这个报错是检测不到fe的心跳,如果不需要这个节点,直接alter system drop follower ,drop 掉