经常出现查询超时问题 P99 查询延迟特别高

Question

每天会出现几次几分钟不能用的状态，监控中可以看到P99 查询延迟特别特别高

fe的192.168.200.108的warning日志：

be的192.168.200.109的warning日志：

对应时间段的监控：

.....

集群配置：
请问是因为tablet数量太多导致的吗？集群数据量大概在50G左右

阿渊@SelectDB (没回帖直接加我主页微信) · Answer

从提供的信息来看

P99 查询延迟出现高延迟的时间段：12:44 —— 12:46
这个时间点，出现异常的监控指标有：FE JVM Heap、NetWork Inbound Traffic 这两个指标在相同的时间出现了异常。

是否有用到冷热分层，比如冷数据在对象上，扫到了冷数据导致？排查下是哪个sql，可以直接在审计日志中查下看看。
集群 50GB 数据，就有 8w多个 tablet，这个明显是不符合预期的，tablet太多了，可能建表不规范，或者有太多的空的历史分区，导致空tablet 异常的多，这种情况需要优化改善，否则之后BE常驻内存会越来越大，FE的元数据管理的压力也会变大。

可以加我主页微信一起看看～