HPC应用分析

高性能计算(HPC)是一种利用强大处理器集群并行处理海量多维数据集(也称为大数据)并以极高速度解决复杂问题的技术。命令对于不同资源开销的场景提供多种任务模式采集分析HPC应用的关键指标,并给出优化建议帮助用户提升程序性能。

命令功能

采集系统的PMU事件并配合采集面向OpenMP和MPI应用的关键指标,精准获得Parallel region及Barrier-to-Barrier的串行及并行时间、校准的2层微架构指标、指令分布及L3的利用率和内存带宽等相关信息。

  • 多节点场景下,工具需解压或安装在共享目录下。多节点时需自行指定节点,即-H参数添加节点信息。
  • 已生成TAR包的任务可导入Web界面进行图形可视化的查看,导入详情请参见任务管理中的任务导入部分内容。
  • 需在mpirun命令下运行,命令后需添加应用。
  • HPC应用分析只支持Kunpeng 920 CPU的物理服务器上使用,且HPC应用任务中Top-Down和DRAM带宽数据需要操作系统内核4.19及以上或patched openEuler 4.14内核及以上。
  • 若mpirun类型为MPICH,需将libmpi.so.12所在路径添加到LD_LIBRARY_PATH中,一般为MPICH安装路径的lib文件夹。
  • 环境MPI(OpenMPI/MPICH)需使能C/C++/Fortran三种语言,以OpenMPI使用GCC编译器为例:--enable-mpi-compatibility CC=gcc CXX=g++ FC=gfortran。
  • OpenMPI需4.1.6及以上兼容版本,优选4.1.6版本;MPICH需4.3.0及以上兼容版本,优选4.3.0版本。

命令格式

1
mpirun -n 4 devkit tuner hpc-perf -L summary <command> [<options>]
  • mpirun原始命令为:mpirun -n 4 <command> [<options>]
  • 示例均为RPM包安装使用,若使用压缩包方式需使用绝对路径,如“/home/DevKit-CLI-x.x.x-Linux-Kunpeng/devkit tuner”。
  • 若使用普通用户运行命令,须先确保任务的计算节点/proc/sys/kernel/perf_event_paranoid的值为-1,/proc/sys/kernel/kptr_restrict的值为0。

参数说明

表1 参数说明

参数

参数选项

说明

-h/--help

-

获取帮助信息。

-o/--output

-

设置生成的数据文件名称。默认生成在当前所在目录,采集集群时默认为rank0指定的目录(此目录在rank0上可访问,若不可访问则在工具所在目录)。

-l/--log-level

0/1/2/3

设置日志级别,默认为1。
  • 0:日志级别为DEBUG。
  • 1:日志级别为INFO。
  • 2:日志级别为WARNING。
  • 3:日志级别为ERROR。

-d/--duration

-

设置采集时长,单位为秒,默认为一直采集。

-L/--profile-level

summary/detail/graphic

设置任务采集类型,默认为summary。

  • summary为采集基础指标,采集分析开销较小。
  • detail为采集热点函数及详细指标,采集分析开销较大。
  • graphic为采集通信热力图等信息。

-D/--delay

-

设置延迟采集时长,默认为0秒,适用任务采集类型为summary和detail。

--topn

-

设置是否采集低效通讯TopN,适用任务采集类型为graphic。

--critical-path

-

设置是否采集Critical Path,适用任务采集类型为summary和detail。

--mpi-only

-

设置是否只采集MPI指标,适用任务采集类型为summary和detail。

--call-stack

-

设置是否采集CallStack信息,适用任务采集类型为graphic。

--rank-fuzzy

-

指定模糊化倍率,默认为12800。适用任务采集类型为graphic。

--region-max

>1000

指定时序图中显示的通信区域的数量,默认值为1000,设置时该值需大于1000。适用任务采集类型为graphic。

--rdma-collect

1-15

指定收集RDMA性能指标的采集间隔,若未指定该参数将不采集RDMA性能指标,范围为1到15秒。适用任务采集类型为graphic。

--shared-storage

1-15

指定收集共享存储性能指标的采集间隔,若未指定该参数将不采集共享存储性能指标,范围为1到15秒。适用任务采集类型为graphic。

使用示例