使用过程中查看OmniShuffle Shuffle加速组件日志时会提示“Failed to send sync package, Operation timed out”,导致最后的握手失败,但是Spark任务却能正常结束。
通常是对端系统的剩余内存不足或者内存碎片化严重,导致双方建立连接耗时过久,因而触发超时错误。
一般可以通过减少OmniShuffle Shuffle加速组件与Spark的配置内存来避免此问题。当触发此错误后,Spark内部会有重试机制,在重试后会有机会成功,因此Spark任务能够继续运行下去,此时Spark Web界面会有相应的重试日志。