鲲鹏社区首页
中文
注册
开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

矩阵算力使用分析与性能优化

本节介绍如何通过分析业务中矩阵计算使用情况,提高程序对矩阵算力指令利用率,提升整体性能。

  1. 使用perf工具抓取目标程序的矩阵算力指令使用情况,执行如下命令:

    perf stat -e r7200 a.out

    其中r7200为矩阵算力的性能计数器,可用表1中其他事件号替换。

    a.out为目标二进制程序。

    表1 事件说明

    事件号

    事件名称

    事件描述

    0x7200

    SME_MOV_OPS_RET

    矩阵算力数据搬运指令数目

    0x7201

    SME_FP_COMP_OPS_RET

    矩阵算力浮点计算指令数目

    0x7202

    SME_INT_COMP_OPS_RET

    矩阵算力整型计算指令数目

  2. 程序运行结束后,目标计数器的统计数值将输出至标准输出,根据抓取结果,进行调优。如果上述计数器值都较小或为0,说明当前程序没有利用矩阵算力指令进行加速,可优先通过调用KML的数学库使能矩阵算力功能,或进行业务逻辑分析,寻找计算模式匹配部分,进行业务代码改写。

此外,鲲鹏DevKit还提供系统和应用性能诊断调优,辅助用户快速定位和处理性能问题,详情参考Devkit官网:https://www.hikunpeng.com/zh/developer/devkit/tuning