调优结果
创建测试脚本,对模型调优结果进行测试。
- 进入创建的Docker容器,创建测试脚本run_performance_4rank.sh。
- run_performance_4rank.sh测试脚本内容请参见run_performance_4rank.sh。
- 执行测试脚本,测试脚本中最后一行的模型路径需要根据实际情况进行替换。
脚本最后一行参数说明如表1所示。
表1 脚本最后一行参数说明 参数
参数说明
pa_fp16
表示采用pa_fp16的混合精度模式。
performance
表示测试模式选用性能测试。
$ALL_IN_OUT_SETS
表示输入和输出的token大小。
$BS_GROUP
batch size。
$P_MAX_BS
prefill batch size。
llama
表示采用的模型为llama。
/xx/xx/models/DeepSeek-R1-Distill-Llama-70B-W8A8SC-full
表示权重路径。
4
表示rank数为4。
[1,4,-1,-1,-1,-1]
表示使用1dp4tp。
测试结果如下所示(其中decoder_token_time表示生成一个token所花费的时间)。
Decode TPS(Token Per Second)表示Decode阶段每秒可以生成多少token,计算公式为Decode TPS = 1/decode_token_time*1000*8。