Doris存算分离架构压测指标上不去

Viewed 38

目前我用3台112核476GiB,带宽上限为35Gbps的机器配置了一个存算分离集群,每台机器上都有一个FE和BE,每台机器有四块1T的盘用作file_cache,远端用s3存储。

压测脚本使用stream_load的方式、使用128个线程、100000的batch去写入数据。
Insert success, this batch: 1000000 rows, 287.68 MB, cost:8981ms这是写入一次的大小。

但是我通过查看Grafana,发现每台机器的CPU使用率才15%左右,磁盘io使用40%左右,网络带宽平均下来每台机器才600MB/s(这其中还包括转发到其他BE上的带宽,发压机的输出带宽/3=300MB/s左右,意味着写入s3的带宽才300MB/s)。

并且Doris返回给压测机的信息中有大量的报错:
context deadline exceeded (Client.Timeout exceeded while awaiting headers)
以及
[CANCELLED]cancelled: [INTERNAL_ERROR]can not get a block queue for table_id:xxxxx

请问大家我的问题出在哪里,Doris集群参数有哪些需要调整的嘛,又或者有其他什么建议嘛?
压测了三四天了,找不到问题出在哪里,拜托大家帮帮我😭😭😭

1 Answers

这块得具体看下了,你可以先加我的微信Faith_xzc,咱们对对。后面进展我更新到论坛上