故障排除
TPCH SQL6异常报错问题
现象描述:
TPCH SQL6异常报错问题。
解决方法:
此异常是因为OmniData算子下推配置项中max.task.queue.size的默认值为存储节点的CPU数量的4倍,可以通过修改此值增加队列深度,解决此问题。
TPCDS SQL3异常报错问题
现象描述:
TPCDS SQL3执行导致引擎coredump。
解决方法:
此异常定位为Ceph社区固有问题,待社区解决。
通过在Ceph配置文件“/etc/ceph/ceph.conf”中的[global]域中增加rgw_nfs_lru_lane_hiwat配置项,并设置其值为65535,规避问题的发生。
OmniData算子下推限制
- 不支持对事务表的算子下推。
- 不支持对分桶表的算子下推。
haf daemon日志报错
现象描述:
haf daemon日志报错,报错信息如下:
[ERROR] [ProcessID:1512097] [daemon_recv] TlsAccept:428] [LINK]target TlsAcceptDeal failed. channelID=0
解决方法:
主机节点和卸载节点重新执行生成证书操作。
Spark执行报错,haf daemon日志没有报错
现象描述:
Spark执行报错,haf daemon日志没有报错,回显信息如下:
Failed to create task.
解决方法:
Spark配置文件中添加spark.executorEnv.HAF_CONFIG_PATH path,其中path为haf主机节点安装路径。
使用haf-tool生成证书时,偶现的生成错误问题
现象描述:
使用haf-tool生成证书时,偶现的生成错误问题,错误信息如下:
/opt/haf-host/tools/scripts/csr_gen_host.sh generate host csr failed
解决方法:
该错误一般是在启动OmniData算子下推时,已经source了如下的主机节点脚本,导致运行时和本地的OpenSSL命令版本冲突,在执行上述证书生成命令时,重新开启一个Shell即可。
HAF运行时发生系统异常,找不到core文件
现象描述:
HAF框架运行时,发生异常导致进程退出,无法找到coredump文件。
解决方法:
core文件由系统产生,haf没有权限进行修改,建议查看系统配置文件,确认coredump文件的生成位置。
cat /proc/sys/kernel/core_pattern
父主题: OmniData算子下推 用户指南