查看分析结果
前提条件
已创建HPC集群检查任务,并且成功完成分析。
操作步骤
- 在左侧“系统性能分析”区域,单击指定分析任务名称。
展开节点列表。
- 单击节点名称查看分析结果。
单击节点名称默认打开“集群配置”页签,如图1所示,参数如表1所示。
- 各项数据分组依据可鼠标悬停至对应分组分布后的查看,亦可单击按钮自行按需分组。
- 各项数据的详细数据可单击“过滤节点数据”筛选需要查看的数据,亦可单击“清空节点过滤”清除筛选条件。
- 使用特权用户执行任务时,采集的参数前使用“*”标记。
表1 集群硬件配置(CPU)参数说明 参数
参数说明
CPU
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
CPU型号
显示对应节点的CPU型号。
逻辑CPU数
显示对应节点的逻辑CPU数。
物理CPU数
显示对应节点的物理CPU数。
单个物理CPU核数
显示对应节点中单个CPU的核数。
超线程
显示对应节点的超线程数。
L1i cache
显示L1i缓存。
L1d cache
显示L1d缓存。
L2 cache
显示L2缓存。
L3 cache
显示L3缓存。
NUMA节点数
显示对应节点的NUMA节点数。
主频
显示CPU的主频率。
缓存行大小
显示CPU的缓存行大小。
厂商
显示CPU的厂商。
图2 集群硬件配置(GPU)
表2 集群硬件配置(GPU)参数说明 参数
参数说明
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
CUDA 版本显示对应节点的CUDA版本。
驱动版本
显示对应节点的GPU驱动版本。
显卡数量
显示对应节点的显卡数量。
型号
显示GPU型号。
sm时钟频率
显示GPU的sm时钟频率。
内存时钟频率
显示GPU的内存时钟频率。
图3 集群硬件配置(内存)
表3 集群硬件配置(内存)参数说明 参数
参数说明
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
内存总容量
显示对应节点的内存总量。
页尺寸
显示对应节点的页尺寸。
大页尺寸
显示对应节点的大页尺寸。
*厂商
显示对应节点上的内存条厂商,此为特权用户采集的数据。
*型号
显示对应节点上的内存条型号,此为特权用户采集的数据。
*大小
显示对应节点上的内存条容量大小,此为特权用户采集的数据。
*位宽
显示对应节点上内存条的位宽,此为特权用户采集的数据。
*时钟频率
显示对应节点上内存条的时钟频率,此为特权用户采集的数据。
*位置
显示对应节点上内存条的位置信息,此为特权用户采集的数据。
图4 集群硬件配置(网络)
表4 集群硬件配置(网络)参数说明 参数
参数说明
网络设备
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
支持
RDMA 显示对应节点的是否支持RDMA。
网卡/网口(逻辑)
显示对应节点的逻辑网卡/网口数。
逻辑名
显示对应节点的网卡逻辑名。
型号
显示对应节点的网卡型号。
驱动
显示对应节点的网卡驱动。
速率
显示对应节点的网卡速度。
MTU
显示对应节点网口能通过的最大数据包大小。
Txqueuelen
显示对应节点网口传输数据的缓冲区的储存长度。
*PF_LOG_BAR_SIZE
显示网卡参数PF_LOG_BAR_SIZE的值,此为特权用户采集的数据。
驱动版本
显示对应节点网卡的驱动版本。
*最大速率
显示对应节点网卡的最大速率,此为特权用户采集的数据。
*时钟频率
显示对应节点网卡的时钟频率,此为特权用户采集的数据。
设备号
显示对应节点网卡的设备号。
DSCP优先级
显示对应节点网卡的DSCP优先级。
TOS:服务类型
显示对应节点网卡的服务类型。
优先级信任模式
显示对应节点网卡的优先级信任状态值。
PFC:流量控制优先级
显示对应节点网卡PFC和流量控制优先级的对应信息。
DSCP
显示对应节点网卡的DSCP详情。
DCQCN
显示对应节点网卡的DCQCN详情。
端口
显示对应节点上对应网口的端口号。
设备号
显示对应节点上对应网口的设备号。
GID
显示对应节点上对应网口的GID。
版本
显示对应节点上对应网口的版本号。
索引
显示对应节点上对应网口的索引。
*IP
显示对应节点上对应网口的IP地址。
传输协议
显示对应节点上对应网口的传输协议。
设备名:端口
显示对应节点上对应网口的设备和端口号。
时延
显示对应节点上对应网口的时延。
开销
显示对应节点上对应网口使用的开销。
带宽
显示对应节点上对应网口的带宽。
RX
显示对应节点上对应网卡的接受消息队列大小
TX
显示对应节点上对应网卡的发送消息队列大小
Other
显示对应节点上对应网卡的其他配置。
Combined
显示对应节点上对应网卡当前开启的队列数。
路由配置
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
网关
显示当前节点的网关。
掩码
显示当前节点的掩码。
目标网段
显示当前节点路由的网络目标地址。
标志位
显示当前节点路由的标记。
中转数
显示当前节点的路由距离。
引用次数
显示当前节点的路由项引用次数。
使用次数:被路由软件查找次数
显示当前节点的对应路由项被路由软件查找的次数。
网络接口
显示当前节点的对应路由表项对应的输出接口。
Hosts配置
节点IP
显示集群中的节点IP地址。
Host IP
显示该节点IP地址的Host IP。
主机名
显示该节点IP地址的主机名。
图5 集群硬件配置(磁盘)
表5 集群硬件配置(磁盘)参数说明 参数
参数说明
节点IP
显示集群中的节点IP地址。
数据分组
显示节点所在分组。
磁盘总容量
显示各节点的磁盘总容量。
磁盘数
显示各节点的磁盘数量。
名称
显示对应节点的磁盘名称。
厂商
显示对应节点的磁盘厂商。
容量
显示对应节点的磁盘容量。
类型
显示对应节点的磁盘类型。
型号
显示对应节点的磁盘型号。
系统盘分区目录
显示对应节点的系统盘分区目录。
分区类型
显示对应节点系统盘的分区类型。
文件系统类型
显示对应节点系统盘分区目录的文件系统类型。
容量
显示对应节点系统盘分区目的容量大小。
图6 集群硬件配置(互联)
表6 集群硬件配置(互联)参数说明 参数
参数说明
节点IP
显示集群中的节点IP地址。
数据分组
显示节点所在分组。
*型号
显示当前节点上的拓展设备型号,此为特权用户采集的数据。
*位宽
显示当前节点上的拓展设备的位宽,此为特权用户采集的数据。
*时钟频率
显示当前节点上的拓展设备的时钟频率,此为特权用户采集的数据。
*特性
显示当前节点上的拓展设备的特性,此为特权用户采集的数据。
*RAID型号
显示当前节点上拓展设备的RAID型号,此为特权用户采集的数据。
*RAID位宽
显示当前节点上拓展设备的RAID位宽,此为特权用户采集的数据。
*RAID时钟频率
显示当前节点上拓展设备的RAID时钟频率,此为特权用户采集的数据。
*磁盘名称
显示当前节点上拓展设备的磁盘名称,此为特权用户采集的数据。
图7 集群软件一致性分布(OS)
表7 集群软件一致性分布(OS)参数说明 参数
参数说明
NUMA
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
NUMA策略
显示当前节点的NUMA策略。
NUMA优选节点
显示当前节点的NUMA优选节点。
资源限制
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
Core文件大小
显示当前节点的core文件大小。
数据段大小
显示当前节点的数据段大小限制值。
调度优先级
显示当前节点的调度优先级。
文件大小
显示当前节点文件大小的限制值。
Pending信号数
显示当前节点的Pending信号数的限制值。
最大锁定内存大小
显示当前节点最大锁定内存的限制值。
最大内存大小
显示当前节点最大内存的限制值。
打开文件数
显示当前节点中可以打开最大文件数的限制值。
Pipe大小
显示当前节点Pipe大小的限制值。
POSIX消息队列大小:包含消息队列额外开销
显示当前节点POSIX消息队列大小,包含消息队列额外开销。
实时队列优先级
显示当前节点实时队列优先级。
栈大小
显示当前节点栈大小的限制值。
CPU时间
显示当前节点的CPU时间的限制值。
最大用户进程数
显示当前节点最大用户进程数的限制值。
虚拟内存大小
显示当前节点虚拟内存大小的限制值。
文件锁
显示当前节点文件锁的限制值。
Kernel Config
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
参数名
显示当前节点中的内核配置参数。
参数值
显示当前节点中的内核配置参数的对应值。
图8 集群软件一致性分布(软件包)
表8 集群软件一致性分布(软件包)参数说明 参数
参数说明
节点IP
显示集群中的节点IP地址。
数据分组
显示对应节点所在分组。
内核
显示对应节点的内核版本。
OS
显示对应节点的操作系统版本。
DPC客户端
显示对应节点的DPC连接数。
Donau调度器代理
显示对应节点的多瑙调度器代理连接数。
Mellanox驱动
显示对应节点的Mellanox驱动版本。
PostgresSQL
显示对应节点的PostgreSQL数据库版本。
BIOS
显示对应节点的BIOS版本。
Haveged
显示对应节点的Haveged版本。
图9 集群软件一致性分布(环境变量)
图10 集群软件一致性分布(依赖库)
图11 集群软件一致性分布(Module)
表9 集群软件一致性分布(环境变量、依赖库和Module)参数说明 参数
参数说明
环境变量
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
LD_LIBRARY_PATH
显示对应节点环境变量中LD_LIBRARY_PATH的配置。
INCLUDE
显示对应节点环境变量中INCLUDE的配置。
LOADED_MODULES
显示对应节点环境变量中LOADED_MODULES的配置。
依赖库
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
MPI相关库
显示对应节点使用的MPI库。
CUDA相关库
显示对应节点使用的CUDA库。
Module
节点IP
显示集群中的节点IP地址。
数据分组
显示当前节点所在分组。
版本
显示对应节点中使用的module版本。
列表
显示对应节点中使用的module详情。
图12 集群软件一致性分布(MPI/openMP)
- (可选)分组对比。
可通过单击自定义对比分组;对比分组上限为10组。
图13 分组对比筛选
- (可选)过滤节点数据。
查看指定指标时可单击“过滤节点数据”按钮筛选数据,查看后若需查看全部数据可单击“清除节点过滤”按钮,以GPU数据为例如图14所示。
过滤选项共有四种共用户选择,分别为包含所有、包含任一、不包含所有和不包含任一。
包含所有:具有所有过滤项的节点及数据。
包含任一:具有一个或多个过滤项的节点及数据。
不包含所有:排除具有所有过滤项的节点及数据。
不包含任一:排除具有任一过滤项的节点及数据。