模型量化
Atlas 800I A2推理服务器支持Llama3.1-70B,Qwen2.5-70B等模型的量化推理,此方法依赖于msModelSlim工具生成的量化权重。
- 安装msModelSlim。
git clone -b br_release_MindStudio_8.0.RC1_20260324 https://gitee.com/ascend/msit.git cd msit/msmodelslim bash install.sh
- 量化模型(此处以DeepSeek-R1-Distill-Llama-70B W8A8量化为例,其他量化方法请参见LLaMA量化案例)。
- 进入“msit/msmodelslim/example/Llama”目录,执行下述指令。
python3 quant_llama.py --model_path {浮点权重路径} --save_directory {W8A8量化权重路径} --calib_file ../common/boolq.jsonl --device_type npu --disable_level L5 --anti_method m3 --act_method 3
- 请参见性能测试方法启动并测试模型性能。
父主题: 性能调优