矩阵算力使用分析与性能优化
本节介绍如何通过分析业务中矩阵计算使用情况,提高程序对矩阵算力指令利用率,提升整体性能。
- 使用perf工具抓取目标程序的矩阵算力指令使用情况,执行如下命令:
- 程序运行结束后,目标计数器的统计数值将输出至标准输出,根据抓取结果,进行调优。如果上述计数器值都较小或为0,说明当前程序没有利用矩阵算力指令进行加速,可优先通过调用KML的数学库使能矩阵算力功能,或进行业务逻辑分析,寻找计算模式匹配部分,进行业务代码改写。
此外,鲲鹏DevKit还提供系统和应用性能诊断调优,辅助用户快速定位和处理性能问题,详情参考Devkit官网:https://www.hikunpeng.com/zh/developer/devkit/tuning。
父主题: 应用分析