Doris存算分离架构压测指标上不去

Question

目前我用3台112核476GiB，带宽上限为35Gbps的机器配置了一个存算分离集群，每台机器上都有一个FE和BE，每台机器有四块1T的盘用作file_cache，远端用s3存储。

压测脚本使用stream_load的方式、使用128个线程、100000的batch去写入数据。
Insert success, this batch: 1000000 rows, 287.68 MB, cost:8981ms这是写入一次的大小。

但是我通过查看Grafana，发现每台机器的CPU使用率才15%左右，磁盘io使用40%左右，网络带宽平均下来每台机器才600MB/s（这其中还包括转发到其他BE上的带宽，发压机的输出带宽/3=300MB/s左右，意味着写入s3的带宽才300MB/s）。

并且Doris返回给压测机的信息中有大量的报错：
context deadline exceeded (Client.Timeout exceeded while awaiting headers)
以及
[CANCELLED]cancelled: [INTERNAL_ERROR]can not get a block queue for table_id:xxxxx

请问大家我的问题出在哪里，Doris集群参数有哪些需要调整的嘛，又或者有其他什么建议嘛？
压测了三四天了，找不到问题出在哪里，拜托大家帮帮我😭😭😭

徐振超@SelectDB(可以直接加微信Faith_xzc) · Answer

这块得具体看下了，你可以先加我的微信Faith_xzc，咱们对对。后面进展我更新到论坛上

Doris存算分离架构压测指标上不去

1 Answers