bdb过大，3FE因为其中一台机器故障导致fe启动不了，选定了一个fe作为master重新租了集群

Question

重组集群（新建了原数据目录）后bdb依旧很大，可能是因为没有执行drop，老master不停的提示无法连接旧的FE（一直有告警get bad heartbeat response: type: FRONTEND, status: BAD, msg: java.net.ConnectException: Connection refused ）。请问这种情况应该如何修复？

阿渊@SelectDB (没回帖直接加我主页微信) · Answer

bdb 过大的情况一般有几个：
a. FE JVM 使用过高超过 70% ，导致不会做 checkpoint ，导致bdb 中元数据堆积。这种情况需要看FE JVM 是否有泄漏，或者是并发太高，或者导入太多，导致FE 负载高太高，判断需不需要多给一些内存资源。
b. 使用 CCR ，低版本有问题，如果使用了CCR，开启CCR的表没有正常修改binlog的过期时间，会导致大量的binlog 占用内存资源。这种情况可以：show proc "/binlog" 查看。
“重组集群” 没理解，是集群重建还是什么？还是使用了meta recovery？这个报错是检测不到fe的心跳，如果不需要这个节点，直接alter system drop follower ，drop 掉

bdb过大，3FE因为其中一台机器故障导致fe启动不了，选定了一个fe作为master重新租了集群

1 Answers