原理描述

首先介绍TF Serving推理时使用的线程池，以更好理解本特性的工作原理，从而根据实际场景决定特性的开关和设置。

图1 TF Serving线程池运行视图

TF Serving用于推理的线程大致分为两类：通信线程和计算线程。

通信线程：

计算线程：

当开启XLA特性时，将创建用于XLA计算的线程：

整体推理请求流程如图2所示。

图2 推理请求处理流程图

客户端发送推理请求到grpcpp_sync_ser线程解析，然后启动Session执行推理，tf_Compute/host_executor线程并行执行不同的算子，tf_numa_-1_Eige/tf_XLAEigen线程执行算子内部的并发计算。

鲲鹏BoostKit改进了算子调度算法，采用算子批量调度，改进后，整体推理流程如图3所示。

图3 优化后推理流程图

客户端发送推理请求到grpcpp_sync_ser线程解析，并启动Session执行推理，算子按顺序在tf_Compute线程串行执行计算，取消了算子内部的并发计算。

改进后，减少了Session间推理任务的互相干扰，使得单个Session能够以更低的时延完成推理，并增强了TF Serving的并发性能。同时注意到通信线程和计算线程处理的是不同类型的任务，可以设置线程亲和性进行隔离，也能获得一定的性能收益。

线程调度特性支持的功能：

功能配置的详细说明请见使用说明。

父主题： 特性描述