鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

模型量化

Atlas 800I A2推理服务器支持Llama3.1-70B,Qwen2.5-70B等模型的量化推理,此方法依赖于msModelSlim工具生成的量化权重。

  1. 安装msModelSlim。
    git clone -b br_release_MindStudio_8.0.RC1_20260324 https://gitee.com/ascend/msit.git
    cd msit/msmodelslim
    bash install.sh
  2. 量化模型(此处以DeepSeek-R1-Distill-Llama-70B W8A8量化为例,其他量化方法请参见LLaMA量化案例)。
  3. 进入“msit/msmodelslim/example/Llama”目录,执行下述指令。
    python3 quant_llama.py --model_path {浮点权重路径} --save_directory {W8A8量化权重路径} --calib_file ../common/boolq.jsonl  --device_type npu --disable_level L5 --anti_method m3 --act_method 3
  4. 请参见性能测试方法启动并测试模型性能。