组网规划

建议采用存算一体组网,即存储节点和计算节点共用,充分发挥OmniRuntime子特性在大数据场景的计算加速效果。

ESS模式

OmniShuffle Shuffle加速组件在ESS模式下的组网规划采用存算一体架构,由4个节点构成,包括一个管理节点和三个计算节点。

此处以存储节点为HDFS为示例说明,其中:

一台服务器可以同时充当管理节点、计算节点(如果是单机安装模式,后续文章中提到的在管理节点/计算节点上执行的操作,均需要在一个节点上执行),组网规划如图1所示。

图1 ESS安装组网图

RSS模式

  • OmniShuffle Shuffle加速组件RSS在Spark任务Shuffle数据量大的情况下提升才会比较明显。
  • OmniShuffle Shuffle加速组件RSS采用存算分离架构,所以对带宽要求较高。例如当集群带宽低于50GE且数据量大的情况下,带宽会成为性能瓶颈。
  • OmniShuffle Shuffle加速组件RSS把Shuffle数据存储在独立的RSS集群,RSS节点的规模远小于计算节点,多任务情况下Shuffle数据需要落盘,因此对盘的要求较高,建议使用NVMe SSD盘。如使用HDD盘,数据量大的情况下,磁盘IO会成为性能瓶颈。

OmniShuffle Shuffle加速组件在RSS模式下的组网规划采用存算分离架构,由9个节点构成,包括1个管理节点,6个计算节点和2个存储节点。

其中:

组网规划如图2所示

图2 RSS安装组网图