介绍
本文档详细介绍了在鲲鹏920 5250处理器+Atlas 300I Duo推理卡环境下部署DeepSeek 70B模型,并对其进行性能调优的操作步骤。
直接在鲲鹏920 5250处理器+Atlas 300I Duo推理卡两卡(A+K)上运行DeepSeek 70B模型,性能较差,面对AI算力的快速增长和客户对高性能计算的需求,A+K一体机性能竞争力不够,因此需要对A+K推理性能进行优化。
当前DeepSeek 70B模型是通过DeepSeek R1蒸馏的LLaMA 70B模型,然后在MindIE上部署模型,因此需要了解知识蒸馏(Knowledge Distillation,KD),MindIE(Mind Inference Engine,昇腾推理引擎),DeepSeek R1,LLaMA(Large Language Model Meta AI)相关概念。
知识蒸馏
知识蒸馏是一种训练技术,如图1所示,通过训练小型“学生”模型来复制大型“教师”模型的行为。学生模型不使用原始标签,而是从教师模型的软概率中进行学习,从而捕捉不同类别之间更丰富的关系。

MindIE
MindIE是华为昇腾针对AI全场景业务的推理加速套件。如图2所示,通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

DeepSeek R1
如图3所示,DeepSeek R1在所有Transformer层上采用多头潜在注意力(Multi-head Latent Attention,MLA)层,而不是标准多头注意力。前三个Transformer层与其他层不同,使用标准前馈网络(Feedforward Network,FFN)层。从第4层到第61层,混合专家(Mixture of Experts,MoE)层取代了FFN层。

LLaMA
LLaMA是Meta发布的一个大规模高效语言模型系列,如图4所示,旨在提供高效且可扩展的解决方案,适用于各种自然语言处理(Natural Language Processing,NLP)任务。凭借其开放性、可扩展性和性能优化,LLaMA成为一个强有力的工具,广泛应用于学术研究、工业开发以及企业应用。与其他大型语言模型相比,LLaMA在计算效率、开源性以及多样化应用方面展现出其独特优势。如图所示为LLaMA的示意图,由Attention和MLP层堆叠而成。
