DECOMMISSION BACKEND下线be节点卡住

Viewed 41

VERSION:v2.1.6
12个be节点的集群现在下线其中的be-03节点,然而下线到最后be节点残留了21个tablet就卡住了,在 FE Master 的日志过滤到了replicas to decommission关键字,找到了异常的tablet查,然后退出Be-03的节点下线CANCEL DECOMMISSION BACKEND。接着操作下线另外一台的be-04节点,结果下线到残留83个tablet时候又卡住好久不动了,在fe的master里面也有replicas to decommission关键字。这种问题有什么办法处理么???因为需要12个节点都要下线掉取出HDD盘的。感觉是完全没办法下线节点了。下面是官网的说辞。
image.png

2 Answers

通过重启fe节点服务解决了

  1. 确定回收站是否有残留: SHOW CATALOG RECYCLE BIN;
  2. 查看是否有事物阻塞:去 fe http 面板里查看调度的报错:system 标签 => cluster_balance => 最后一行的 history_tablets出来的结果中,State = CANCEL 的表示失败,看下 ErrMsg 的报错是什么
    如果是下边的报错,那么需要看下running的tablet中是不是有很多很早的 prepare 的事物。需要手动abort下
    image.png
    abort:
手动将这些prepare的事物abort掉
指定事物 ID:
curl -X PUT --location-trusted -u user:passwd  -H "txn_id:18037" -H "txn_operation:abort"  http://fe_host:http_port/api/{db}/{table}/_stream_load_2pc


指定 label:
curl -X PUT --location-trusted -u user:passwd  -H "label:55c8ffc9-1c40-4d51-b75e-f2265b3602ef" -H "txn_operation:abort"  http://fe_host:http_port/api/{db}/{table}/_stream_load_2pc

也可以加我主页微信一起看看