原理描述
本节针对TensorFlow/XLA的优化特性进行描述,以帮助用户更好地使用。
TensorFlow图融合
在TensorFlow模型中存在一些子图包含冗余计算,通过识别特定的图模式,将子图中的多个算子融合为一个“融合算子”,能够避免冗余计算,优化访存,提升模型推理性能,如图1所示。本功能在前端提供TensorFlow模型层面的图融合与图重写功能,在后端提供“自定义融合算子”的手动实现。
XLA图融合
算子优化
本功能包含各阶段的算子优化,包括将MatMul(Matrix Multiplication)算子下发至XLA,调用OpenBLAS(Open Basic Linear Algebra Subprograms)所提供的GEMM(General Matrix Multiplication)运算接口,包括将Softmax函数替换为更高效的实现;同时本功能通过识别特定的操作模式,减少其中的冗余操作,进一步提升模型的推理性能,例如:针对多个切片后进行拼接的模式,删除其中冗余的切片操作。
父主题: 特性描述

