现在有两张表,两张表的字段是一样的
A表 明细模型,字段顺序是 data_time、data_md5、.....
使用 data_time 进行按月分区,data_md5建立了布隆索引,同时该字段作为分桶字段
A表基本上只会使用 data_time、data_md5 同时作为查询条件,此时这张表按data_time进行分区应该是没有问题的
B表 唯一模型
data_md5建立了布隆索引,同时该字段作为分桶字段
B表基本上只会使用data_md5作为查询条件,此时分区就不太合适使用data_time了?
可doris的分区没法按字段进行hash取模,请问这种表该如何分区呢?
A表相当于是B表的流水记录表,B表是最新结果记录表
A表的数据量预估可达数百亿级、B表预估可达数十亿级
请问A表的分桶数量建议多少合适?B表的分区该如何设置?如果B表不进行分区只进行分桶,数据量大起来了,查询效率会不会降低?