鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

组网规划

建议采用存算一体组网,即存储节点和计算节点共用,充分发挥OmniRuntime子特性在大数据场景的计算加速效果。

RSS模式

  • OmniShuffle Shuffle加速组件 RSS在Spark任务shuffle数据量大的情况下提升才会比较明显。
  • OmniShuffle Shuffle加速组件RSS采用存算分离架构,所以对带宽要求较高。例如当集群带宽低于50GE且数据量大的情况下,带宽会成为性能瓶颈。
  • OmniShuffle Shuffle加速组件RSS把shuffle数据存储在独立的RSS集群,RSS节点的规模远小于计算节点,多任务情况下shuffle数据需要落盘,因此对盘的要求较高,建议使用NVMe SSD盘。如使用HDD盘,数据量大的情况下,磁盘IO会成为性能瓶颈。

OmniShuffle Shuffle加速组件在RSS模式下的组网规划采用存算分离架构,由9个节点构成,包括1个管理节点,6个计算节点和2个存储节点。

其中:

  • 管理节点为server,用于管理任务。
  • 计算节点为agent01、agent02、agent03、agent04、agent05和agent06,用于运行OmniShuffle Shuffle加速组件查询引擎服务。
  • 存储节点为RSS01和RSS02,用于存储shuffle过程中的数据集。

组网规划如图1所示

图1 RSS安装组网图