自动调优时内存不足导致任务失败

现象描述

自动调优时,应用为Spark或Hive,任务运行时长时间未响应;dmesg日志发现OOM信息和进程终止信息。

可能原因

运行自动调优时参数设置过大,使用的内存比系统内存大太多,导致OOM,系统终止主应用。

处理步骤

  1. 重新启动被系统终止的应用。
  2. 根据实际环境配置调整应用参数(以Spark为例)。

    在应用配置文件param_xxx.json中查找参数“spark.executor.memory”和参数“spark.executor.instances”,将参数值根据实际环境配置修改。

    参数“spark.executor.memory”表示应用使用的内存,参数“spark.executor.instances”表示应用使用实例数,两者相乘为实际使用内存。

  3. 重新运行自动调优任务。