经常出现查询超时问题 P99 查询延迟特别高

Viewed 32

每天会出现几次几分钟不能用的状态,监控中可以看到P99 查询延迟特别特别高

fe的192.168.200.108的warning日志:
image.png

be的192.168.200.109的warning日志:
image.png

对应时间段的监控:
image.png
.....
image.png

集群配置:
请问是因为tablet数量太多导致的吗?集群数据量大概在50G左右
image.png

1 Answers

从提供的信息来看

  1. P99 查询延迟出现高延迟的时间段:12:44 —— 12:46
    这个时间点,出现异常的监控指标有:FE JVM Heap、NetWork Inbound Traffic 这两个指标在相同的时间出现了异常。

    是否有用到冷热分层,比如冷数据在对象上,扫到了冷数据导致?排查下是哪个sql,可以直接在审计日志中查下看看。

  2. 集群 50GB 数据,就有 8w多个 tablet,这个明显是不符合预期的,tablet太多了,可能建表不规范,或者有太多的空的历史分区,导致空tablet 异常的多,这种情况需要优化改善,否则之后BE常驻内存会越来越大,FE的元数据管理的压力也会变大。


可以加我主页微信一起看看~