鲲鹏社区首页
中文
注册

HPC集群管理与调度

多瑙Portal
多瑙Portal是华为全自研的HPC集群管理平台,通过可视化界面为用户提供了便捷的HPC集群系统数据管理和软硬件资源管理功能,串联整个工作流程,帮助用户合理地进行作业调度和资源分配,提升集群系统计算能力利用率
立即下载查看文档
价值优势
  • 操作系统桌面风格:Web界面桌面风格布局,多窗口多任务高效操作
  • 设计计算一体化:支持基于Linux平台的远程2D/3D可视化,打通设计与计算全流程
  • 资源分析与监控:多维度分析集群运行历史,实时监控集群资源使用
  • 异构多集群管理:同时管理多瑙调度集群和第三方调度集群,数据与资源统一管理
关键技术
  • 通过VNC实现Linux 2D/3D展示,用户可通过Web界面进行数据远程处理
  • 可视化拖拽进行提交表单布局,简化用户配置
  • 元数据驱动界面展示,灵活定义报表和监控视图,易于扩展
  • 基于Netty实现安全的跨集群数据传输

HPC基础软件

HPCKit
HPCKit集成华为高性能通信库(Hyper MPI)、鲲鹏数学库(KML)、鲲鹏毕昇/GCC编译器等针对鲲鹏平台深度优化的HPC基础软件,实现一键部署和最优协同,使能HPC领域应用实现极致性能
立即下载
Hyper MPI是基于Open MPI 4.1.5和Open UCX 1.15.0,支持MPI-V3.1标准的并行计算API接口,新增了优化的集合通信框架。同时,Hyper MPI对数据密集型和高性能计算提供了网络加速能力,使能了节点间高速通信网络和节点内共享内存机制,以及优化的集合通信算法。Hyper MPI的UCX COLL通信框架能够支持的最大数据包长度为2^32字节
价值优势
  • Allreduce性能,小包接口时延降低 60%,中包接口时延降低 3 倍
  • Bcast性能,小包接口时延降低 79%
  • Barrier性能,时延降低66%
  • Alltoallv性能,降低中小包接口时延,端到端收益7%
关键技术
  • 拓扑感知算法
  • Tree类算法实现集合通信加速
  • Ring算法加速大包集合通信
  • Plummer&Ladd算法
  • Rabenseifner算法

鲲鹏HPC多瑙套件 体验Demo

多瑙套件 操作体验Demo
通过多瑙套件完成应用中心、监控中心、报表中心、计费中心操作;同时进行设计计算一体化,全流程体验
立即体验