鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

故障排除

TPCH SQL6异常报错问题

现象描述:

TPCH SQL6异常报错问题。

解决方法:

此异常是因为OmniData算子下推配置项中max.task.queue.size的默认值为存储节点的CPU数量的4倍,可以通过修改此值增加队列深度,解决此问题。

TPCDS SQL3异常报错问题

现象描述:

TPCDS SQL3执行导致引擎coredump。

解决方法:

此异常定位为Ceph社区固有问题,待社区解决。

通过在Ceph配置文件“/etc/ceph/ceph.conf”中的[global]域中增加rgw_nfs_lru_lane_hiwat配置项,并设置其值为65535,规避问题的发生。

OmniData算子下推限制

  1. 不支持对事务表的算子下推。
  2. 不支持对分桶表的算子下推。

haf daemon日志报错

现象描述:

haf daemon日志报错,报错信息如下:

[ERROR] [ProcessID:1512097] [daemon_recv] TlsAccept:428] [LINK]target TlsAcceptDeal failed. channelID=0

解决方法:

主机节点和卸载节点重新执行生成证书操作。

Spark执行报错,haf daemon日志没有报错

现象描述:

Spark执行报错,haf daemon日志没有报错,回显信息如下:

Failed to create task.

解决方法:

Spark配置文件中添加spark.executorEnv.HAF_CONFIG_PATH path,其中path为haf主机节点安装路径。

使用haf-tool生成证书时,偶现的生成错误问题

现象描述:

使用haf-tool生成证书时,偶现的生成错误问题,错误信息如下:

/opt/haf-host/tools/scripts/csr_gen_host.sh generate host csr failed

解决方法:

该错误一般是在启动OmniData算子下推时,已经source了如下的主机节点脚本,导致运行时和本地的OpenSSL命令版本冲突,在执行上述证书生成命令时,重新开启一个Shell即可。

HAF运行时发生系统异常,找不到core文件

现象描述:

HAF框架运行时,发生异常导致进程退出,无法找到coredump文件。

解决方法:

core文件由系统产生,haf没有权限进行修改,建议查看系统配置文件,确认coredump文件的生成位置。

cat /proc/sys/kernel/core_pattern