关于AI的函数AI_AGG

Viewed 23

我这版本是 Doirs 4.0.0的。
请问一下,我现在测试的表里有8000行数据,每一行都是一个生产异常的反馈内容。
我想用AI_AGG这个函数对这8000行内容会聚提问,速度超级慢,大概要等3分钟以上。
请问大概是什么原因?
就是这个AI_AGG是不是会实时将prob_desc字段中的中文向量化,然后再和我的提示词转向量化再去计算相似度导致的慢呢?
还是说我硬件不行。。
如果把这8000行prob_desc字段中文转为向量存储在表中,还能用AI_AGG这个函数吗?

比如:
SELECT ai_agg('ai_res_chat', prob_desc, '总结一下这些问题的集中点有哪些') as result
FROM test.table

1 Answers

Doris 本身不会在本地做复杂的 NLP / 相似度计算;
它会把你这 8000 行 prob_desc 文本,按函数实现的策略,打包成一个或多个请求,发给你配置的 LLM 服务(如 OpenAI、DeepSeek、本地模型等);
LLM 需要处理大量中文文本 + 你的提示词,再把结果返回给 Doris。

如果你把中文转成向量(比如 ARRAY 或 VECTOR 类型)存表,这个列就不再是“文本列”,不符合 AI_AGG 的预期输入;