简介
本文档主要介绍如何在使用openEuler操作系统的鲲鹏服务器上部署、使用和维护OmniShuffle Shuffle加速组件,并提供了使用OmniShuffle Shuffle加速组件过程中遇到故障的解决方法,以及OmniShuffle Shuffle加速组件的参考配置文件、脚本和命令。
大数据分析业务场景中,数据量呈井喷式增长,且数据呈现出多源和异构的特征,导致数据分析成本越来越高。在大部分数据分析场景中,数据的迭代过程存在着大量Disk Shuffle,会导致数据分析的时间过长等问题。
OmniShuffle Shuffle加速组件作为大数据引擎Spark的性能加速组件,运行在客户数据中心的大数据集群内,通过内存池统一编址、数据内存语义交换及融合Shuffle等关键特性,减少数据磁盘I/O开销,提高数据分析的时效性和集群资源利用率。
父主题: 特性描述