查看OmniShuffle Shuffle加速组件日志时报错的解决方法
问题现象描述
使用过程中查看OmniShuffle Shuffle加速组件日志时会提示“Failed to send sync package, Operation timed out”,导致最后的握手失败,但是Spark任务却能正常结束。
关键过程、根本原因分析
通常是对端系统的剩余内存不足或者内存碎片化严重,导致双方建立连接耗时过久,因而触发超时错误。
结论、解决方案及效果
一般可以通过减少OmniShuffle Shuffle加速组件与Spark的配置内存来避免此问题。当触发此错误后,Spark内部会有重试机制,在重试后会有机会成功,因此Spark任务能够继续运行下去,此时Spark Web界面会有相应的重试日志。
父主题: 故障排除