我有里两个Doris集群一个测试(1FE,3BE)一个生产(3FE,5BE,有通过VeloDB Manager部署),都通过routine load任务消费kafka消息。
两个集群里的routine load都会由于kafka的offset out of range报错导致暂停。出现的情况比较多。
但是这两个集群的自动恢复机制不知道哪里出现区别:
- 生产集群的routine load会一直被恢复重启,一直报offset out of range,暂停后大概1分钟后又被恢复重启,无限循环;
- 测试集群在报offset out of range暂停之后,就不会被恢复重启。
跟自动恢复有关的参数也没有配置,保持默认值:period_of_auto_resume_min=5.
我该怎么排查这两种情况出现的原因。
doris版本为2.0.10
我想问一下两种解决方式:
- routine load出现offset out of range后暂停后,自动恢复有没有办法自动将offset调整为offset_beginning
- routine load出现offset out of range后暂停后,不触发自动恢复,保持paused,等待人工处理