鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

调优结果

创建测试脚本,对模型调优结果进行测试。

  1. 进入创建的Docker容器,创建测试脚本run_performance_4rank.sh。
  2. run_performance_4rank.sh测试脚本内容请参见run_performance_4rank.sh
  3. 执行测试脚本,测试脚本中最后一行的模型路径需要根据实际情况进行替换。

    脚本最后一行参数说明如表1所示。

    表1 脚本最后一行参数说明

    参数

    参数说明

    pa_fp16

    表示采用pa_fp16的混合精度模式。

    performance

    表示测试模式选用性能测试。

    $ALL_IN_OUT_SETS

    表示输入和输出的token大小。

    $BS_GROUP

    batch size。

    $P_MAX_BS

    prefill batch size。

    llama

    表示采用的模型为llama。

    /xx/xx/models/DeepSeek-R1-Distill-Llama-70B-W8A8SC-full

    表示权重路径。

    4

    表示rank数为4。

    [1,4,-1,-1,-1,-1]

    表示使用1dp4tp。

    测试结果如下所示(其中decoder_token_time表示生成一个token所花费的时间)。

    Decode TPS(Token Per Second)表示Decode阶段每秒可以生成多少token,计算公式为Decode TPS = 1/decode_token_time*1000*8。