遇到两次,有两个 非 master FE 突然有大量查询 ERROR(doris_fe_query_err 指标)。
排查发现这两个 FE 有元数据落后 master 的异常。
还有大量 missed_versions is empty 的报错:
master FE 还有剔除过于落后 FE 的情况
在这些报错之前,发现了获取不到某张表的锁异常:
巧合的是,我们有一个查询,涉及的表,正好是获取不到锁的表,查询时间也和故障时间吻合。此查询也有报错
[E-217]The depth of the expression tree is too big, make it less than 600
此问题影响了其他 大量正常 sql,不知道这是不是bug