更新说明
OmniShuffle通过Spark的插件机制,实现了Shuffle Manager和Broadcast Manager的插件接口,以无侵入的方式替换了Spark开源版本中的Shuffle和Broadcast模块。这一替换有效减少了磁盘IO,提升了节点间数据交换的效率,从而显著优化了查询性能。
新增特性
- OmniShuffle通过实现Shuffle Manager插件接口使能In-memory Shuffle,即在内存池中通过内存语义完成Shuffle过程。
- 实现Broadcast Manager接口使能基于内存池共享的方式进行变量广播,提升广播变量在各个Executor之间的共享传输效率。
- 基于历史记录的实时调整方式实现Spark SQL作业的并行度自动调整,消除用户针对并行度的调优工作量,同时减少90%以上Shuffle Reduce侧Spill。
修改特性
无
删除特性
无
父主题: V1.3.0