模型量化

Atlas 800I A2推理服务器支持Llama3.1-70B，Qwen2.5-70B等模型的量化推理，此方法依赖于msModelSlim工具生成的量化权重。

安装msModelSlim。

git clone -b br_release_MindStudio_8.0.RC1_20260324 https://gitee.com/ascend/msit.git
cd msit/msmodelslim
bash install.sh

量化模型（此处以DeepSeek-R1-Distill-Llama-70B W8A8量化为例，其他量化方法请参见LLaMA量化案例）。

进入“msit/msmodelslim/example/Llama”目录，执行下述指令。

python3 quant_llama.py --model_path {浮点权重路径} --save_directory {W8A8量化权重路径} --calib_file ../common/boolq.jsonl  --device_type npu --disable_level L5 --anti_method m3 --act_method 3

请参见性能测试方法启动并测试模型性能。

父主题： 性能调优