鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

组网规划

建议采用存算一体组网,即存储节点和计算节点共用,充分发挥OmniRuntime子特性在大数据场景的计算加速效果。如果OmniShuffle Shuffle加速和OmniOperator特性叠加使用,则建议参考本节组网要求进行规划。

ESS模式

OmniShuffle Shuffle加速在ESS模式下的组网规划采用存算一体架构,由4个节点构成,包括一个管理节点和三个计算节点。

此处以存储节点为HDFS为示例说明,其中:

  • 管理节点为server,用于管理任务。
  • 计算节点为agent01、agent02和agent03,用于运行OmniShuffle Shuffle加速查询引擎服务以及存储数据集。

一台服务器可以同时充当管理节点、计算节点(如果是单机安装模式,后续文章中提到的在管理节点/计算节点上执行的操作,均需要在一个节点上执行),组网规划如图1所示。

图1 ESS安装组网图

RSS模式

  • OmniShuffle Shuffle加速 RSS在Spark任务shuffle数据量大的情况下提升才会比较明显。
  • OmniShuffle Shuffle加速 RSS采用存算分离架构,所以对带宽要求较高。例如当集群带宽低于50GE且数据量大的情况下,带宽会成为性能瓶颈。
  • OmniShuffle Shuffle加速 RSS把shuffle数据存储在独立的RSS集群,RSS节点的规模远小于计算节点,多任务情况下shuffle数据需要落盘,因此对盘的要求较高,建议使用NVMe SSD盘。如使用HDD盘,数据量大的情况下,磁盘IO会成为性能瓶颈。

OmniShuffle Shuffle加速在RSS模式下的组网规划采用存算分离架构,由9个节点构成,包括1个管理节点,6个计算节点和2个存储节点。

其中:

  • 管理节点为server,用于管理任务。
  • 计算节点为agent01、agent02、agent03、agent04、agent05和agent06,用于运行OmniShuffle Shuffle加速查询引擎服务。
  • 存储节点为RSS01和RSS02,用于存储shuffle过程中的数据集。

组网规划如图2所示

图2 RSS安装组网图