V1.3.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniShuffle Shuffle加速特性,通过Spark提供的插件机制,实现Shuffle Manager和Broadcast Manager插件接口,无侵入式替换Spark的原生Shuffle和Broadcast,减少磁盘IO,实现节点间的数据的高效交换,提升查询效率。
1.3.0版本支持的内容有:
- OmniShuffle通过实现Shuffle Manager插件接口使能In-memory Shuffle,即在内存池中通过内存语义完成Shuffle过程。
- 实现Broadcast Manager接口使能基于内存池共享的方式进行变量广播,提升广播变量在各个Executor之间的共享传输效率。
- 基于历史记录的实时调整方式实现Spark SQL作业的并行度自动调整,消除用户针对并行度的调优工作量,同时消除90%以上Shuffle Reduce侧Spill。
已解决的问题
无
遗留问题
无
父主题: OmniShuffle Shufle加速