doris版本:2.1.9
集群规模:
FE : 8C 32G * 3
BE: 32C 128G * 9
问题描述:
频繁 偶现 sql 大批量查询超时,单独这些sql都可以在 100毫秒内完成。
配置:query_timeout=3
监控指标: BE fragment 的请求时间 、 因超时而被取消的 fragment instance 数量 等指标有突增。
日志:
【BE】
I20250728 14:35:56.289263 31070 fragment_mgr.cpp:804] Query d825c07669524f74-9b740cd69fe07a9f start execution
I20250728 14:35:56.307466 32487 query_context.cpp:189] Query d825c07669524f74-9b740cd69fe07a9f deconstructed, mem_tracker: , deregister query/load memory tracker, queryId=d825c07669524f74-9b740cd69fe07a9f, Limit=2.00 GB, CurrUsed=329.38 KB, PeakUsed=1.08 MB
【FE】
2025-07-28 14:35:56,280 INFO (mysql-nio-pool-47708|1750220) [Coordinator.execInternal():762] dispatch result sink of query d825c07669524f74-9b740cd69fe07a9f to TNetworkAddress(hostname: , port:9060)
2025-07-28 14:35:59,280 WARN (mysql-nio-pool-47708|1750220) [ResultReceiver.getNext():111] Query d825c07669524f74-9b740cd69fe07a9f get result timeout, get result duration 2 ms