doris be节点下线扩容,以一个新节点重新添加到集群后,UsedPct统计出错,导致集群间数据无法均衡

Viewed 3

集群信息

  • 版本:V2.0.9
  • 集群规模:
    • FE(follower):3
    • 6BE(resource group):writer:4,reader:3
      • 单台磁盘规格:18*7.3T
  • 副本分布(3):writer:2,reader:1

问题描述

按在成功扩容了1个writer节点和1个reader节点后,对be集群第2个reader节点按如下步骤进行内存扩容后,重新加入集群发现可用总量直接少了一块磁盘usedPct占用高达5%,约有一个,导致doris fe评估该空节点的负载为高,无法进行数据均衡:
PixPin_2025-09-16_22-15-03.jpg
6a74abb4dcf88854089bc01a5c51d55f.png
image.png

解决方案

临时解决方案

1.尝试按如下步骤重新还原该节点

无法解决,还是存在此问题

  1. 重新安全下线、删除该be节点
  2. 手动清空所有磁盘下的doris storage目录,确定在加入集群前其中一块盘有60G的日志,其他每块盘只有MB级别的占用

2.将另外一个reader节点安全下线,强制将tablet迁移到这个节点上,再取消安全下线,利用该节点为正常low load可以均衡数据的特性

可以临时使用,但该空节点在错误统计其负载为高情况下,后续无法均衡迁移数据

扩容步骤

image.png

0 Answers