AI推理系统参数
TensorFlow Serving
测试可参见搜推排序模型推理 Benchmark进行,将TensorFlow Serving实例绑定至NUMA-0,Perf Analyzer工具绑定至NUMA-1,对Model Zoo中的搜推模型进行性能评测。
- 业务参数
建议将tensorflow_intra_op_parallelism参数设置为TensorFlow Serving可用的CPU核心数,充分利用多核资源并防止资源竞争,从而提升推理系统的整体性能。
表1 TensorFlow Serving业务参数 推荐参数
调优分析
参数名称
参数含义
调整范围
Testing Case
重要性比率(%)
参考最优值(vs. Baseline)
参考最劣值(vs. Baseline)
tensorflow_intra_op_parallelism
并行执行独立操作的线程数
[0, 128]
Wide && Deep、DSSM、DFFM
88.7%
32(+16.2%)
122(-8.9%)
max_batch_size
batching_parameters_file的子参数
单次可接受的最大请求数(批大小)
[32, 1024]
Wide && Deep
-
190(+7.0%)
681(-55.5%)
- 系统参数
搜推场景下,建议参考表2对内核调度子系统参数进行调整,同时将transparent_hugepage_mode策略设置为always,以优化内存管理并提升整体系统吞吐能力。
表2 TensorFlow Serving系统参数 推荐参数
调优分析
参数名称
调整范围
Testing Case
重要性比率(%)
测试环境默认值
参考最优值(vs. Baseline)
参考最劣值 (vs. Baseline)
kernel.sched_cluster
{0, 1}
Wide && Deep
42.5%
0
1(+2.4%)
0(-4.7%)
kernel.sched_migration_cost_ns
[100000, 5000000]
20.7%
500000
1319951(+2.4%)
168578(-4.7%)
kernel.sched_nr_migrate
[1, 128]
DFFM
10.2%
32
128(+1.2%)
75(-0.6%)
kernel.sched_child_runs_first
{0, 1}
9.3%
0
0(+1.2%)
1(-0.6%)
transparent_hugepage_mode
{madvise, never, always}
DSSM
42.7%
never
always(+1.5%)
madvise(-6.7%)