行列混存|parallel hint|UDF|Spark DataSourceV2读取Doris存储格式

Viewed 21

Doris有几个技术问题,想咨询一下大佬:
1、行列混存,可以指定字段进行行存吗?类似hbase的column family。

2、并行度调优,可以简化像Oracle的parallel()hint吗?

3、sql function如何实现?在create function中编写sql,可以将一些表值返回一些正则表达式的values。在执行计划生成时,将function编译成具体的值,提升非等值join的rlike条件性能。

4、where子句中小表子查询在执行计划期间将单表单字段group_concat()子查询作用的结果直接生成执行计划期间的谓词表达式,是否可以实现?同问题3的业务场景。

5、doris在存算分离模式下,是否支持spark datasourceV2接口,直接读取doris内部存储格式。有没有相关的研发计划?

1 Answers
  1. Doris 支持行列混存,通过两个表属性来控制行列混存 store_row_column和
    row_store_columns 指定需要以行格式存储的列名列表

  2. 支持sql hint :SELECT /*+ SET_VAR(parallel_pipeline_task_num=8) */ * FROM table;

  3. 支持JAVA UDF,以及别名函数,具体您可以举个例子

  4. 这个看着像runtime filter 的特性,应该也是支持的

  5. 目前没有