鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

HDFS NameNode自动停止的解决方法

问题现象描述

执行脚本后HDFS NameNode自动停止。

关键过程、根本原因分析

  1. 查看日志,发现Hive提示堆内存溢出,HDFS提示NameNode连接超时导致停止运行等信息。

  2. 查看NameNode机器环境。
    lscpu

  3. 查看负载。
    top

    分析到系统numa个数只有2个以及网络中断很高,怀疑网卡版本有问题。

  4. 查看网卡版本。
    ethtool -i enp4s0

    发现是1822网卡,驱动未升级。

  5. 排查集群机器。

结论、解决方案及效果

  1. 升级网卡驱动。

    升级后的网卡。

  2. 关闭DIE交织。

    关闭DIE交织后,正常显示4个numa。

  3. 再次执行脚本。

    NameNode正常,distcp任务运行时间由2个多小时降低至3分钟左右。