目前我用3台112核476GiB,带宽上限为35Gbps的机器配置了一个存算分离集群,每台机器上都有一个FE和BE,每台机器有四块1T的盘用作file_cache,远端用s3存储。
压测脚本使用stream_load的方式、使用128个线程、100000的batch去写入数据。
Insert success, this batch: 1000000 rows, 287.68 MB, cost:8981ms
这是写入一次的大小。
但是我通过查看Grafana,发现每台机器的CPU使用率才15%左右,磁盘io使用40%左右,网络带宽平均下来每台机器才600MB/s(这其中还包括转发到其他BE上的带宽,发压机的输出带宽/3=300MB/s左右,意味着写入s3的带宽才300MB/s)。
并且Doris返回给压测机的信息中有大量的报错:
context deadline exceeded (Client.Timeout exceeded while awaiting headers)
以及
[CANCELLED]cancelled: [INTERNAL_ERROR]can not get a block queue for table_id:xxxxx
请问大家我的问题出在哪里,Doris集群参数有哪些需要调整的嘛,又或者有其他什么建议嘛?
压测了三四天了,找不到问题出在哪里,拜托大家帮帮我😭😭😭