开发者
鲲鹏 BoostKit 虚拟化套件整体架构与核心能力详解
鲲鹏 BoostKit 虚拟化套件整体架构与核心能力详解
原创
发表于05/31
9950

一、模块化架构:六大模块,覆盖虚拟化全链路

整套套件采用了灵活的模块化设计,一共分为六大核心模块,从底层的虚拟化引擎,到上层的云平台、监控调优,实现了全链路的覆盖。更贴心的是,华为配套了 21 份官方文档,把所有组件的部署、配置、调优、排障流程都写得明明白白,哪怕是第一次接触鲲鹏架构的运维人员,也能跟着文档快速上手,不用自己踩坑。

这六大模块分别是:基础虚拟化层、容器云层、云平台层、网络存储加速层、监控运维层、性能调优与故障层。接下来我们一个个拆解,看看每个模块都解决了什么问题。

1. 基础虚拟化层:ARM 原生的虚拟化底座

作为整个套件的底座,基础虚拟化层是所有能力的基础,它包含了两大核心组件:libvirtQEMU-KVM

和那些用二进制转译来兼容 x86 虚拟化的方案不同,这两个组件都是鲲鹏 ARM 架构原生编译优化的,没有任何指令集转换的损耗,性能直接拉满。

  • libvirt作为虚拟化管理接口,负责虚拟机的全生命周期管理,包括资源调度、热迁移适配,还新增了 MPAM 资源隔离能力 —— 可以给不同虚拟机划分缓存、内存带宽的配额,彻底解决 “吵闹邻居” 问题,哪怕是在线业务和离线业务混部,也能保证关键业务的性能不受影响。
  • QEMU-KVM则是鲲鹏原生的虚拟化引擎,针对 ARM64 指令集做了深度优化,支持 UEFI 启动、鲲鹏 CPU 特性透传、内存大页、IO 直通这些高级能力,让虚拟机可以直接调用硬件的原生特性,性能几乎和物理机没有差距。

同时,这一层还原生适配了openEulerCentOS等主流操作系统,兼容 Train、Wallaby、Queens 等多个版本的 OpenStack,以及 oVirt 开源虚拟化平台,用户原来的 x86 虚拟化平台的运维经验,几乎可以无缝迁移过来。

2. 容器云层:云原生的 ARM 全栈适配

云原生已经成为现在企业上云的标准,但是过去 ARM 平台上的容器生态一直是短板 —— 很多容器镜像都是 x86 的,运行时兼容性差,性能损耗高,很多企业想在 ARM 上搭容器云,都要自己一个个适配组件,成本极高。

而鲲鹏 BoostKit 的容器云层,直接给用户准备好了一套完整的、全适配 ARM 的云原生栈,涵盖了从底层到上层的所有核心组件:

  • 底层容器运行时:DockerContainerd,原生编译 ARM64 版本,解决镜像兼容性问题;
  • 容器编排引擎:Kubernetes,针对鲲鹏架构做了调度优化;
  • 可视化容器平台:KubeSphere,让用户可以可视化管理容器集群;
  • 服务网格:Istio,支持微服务的流量管理。

不仅如此,针对 K8s 场景,套件还做了很多专属优化:

  • K8s NUMA 亲和性调度插件:在容器超分场景下,根据 NUMA 拓扑来调度容器,让容器的 CPU 和内存都在同一个 NUMA 节点上,提升内存访问性能,容器性能可以提升 5%~10%;
  • K8s SR-IOV 直通插件:简化了容器直通网卡、KAE 加速设备的操作,让容器可以直接调用硬件加速能力,网络和加解密性能直接拉满。

有了这一套,用户不用再自己折腾容器组件的适配,直接就能在鲲鹏上搭起生产级的容器云平台。

3. 网络存储加速层:把虚拟化损耗降到最低

网络和存储的虚拟化损耗,一直是虚拟化场景的最大痛点 —— 很多时候,物理机的性能很强,但是虚拟化之后,网络转发、存储读写的性能就掉了一大截,这也是很多用户不敢把核心业务迁到虚拟化的原因。

而这一层,正是鲲鹏 BoostKit 虚拟化套件的核心亮点,基于鲲鹏的硬件加速能力,把网络和存储的性能做到了极致:

  • OVS 流表网卡加速:把 OVS 的转发流表直接卸载到网卡硬件上,用硬件的查表能力来替代软件处理,虚拟化网络的转发性能直接提升10 倍
  • 虚拟化 DPU 卸载:把 OVS-DPDK、SPDK 这些虚拟化加速软件,直接卸载到 DPU 卡上运行,节省了主机的 CPU 资源,不仅能提升网络和存储的性能,还能把虚拟机密度提升 25% 以上;
  • KAE 加速热迁移:用鲲鹏的硬件加速引擎来做热迁移的压缩和解压缩,不仅热迁移速度提升了 25%,还能节省 70% 的 CPU 资源,热迁移的时候再也不会影响主机上的其他业务;
  • 中断硬件加速:通过 GICv4.1 的中断直通技术,把虚拟中断的处理时长从原来的 2\4 微秒,降到了 0.8 微秒,IO 密集型业务比如 MySQL、Redis 的吞吐量,直接提升了 8%\20%。

根据官方的测试数据,经过这些优化之后,网络转发性能、存储吞吐相比通用的 ARM 虚拟化架构,提升了 30% 以上,真正把虚拟化的损耗降到了几乎可以忽略的程度。

4. 监控运维层:智能调度,把资源利用率拉满

虚拟化集群的运维,最怕的就是资源利用率低,还有出了问题找不到原因。鲲鹏 BoostKit 的监控运维层,就是来解决这个问题的。

这一层集成了两大核心能力:

  • Prometheus 监控组件:针对鲲鹏架构做了专属的指标扩展,不仅能采集通用的 CPU、内存、磁盘指标,还能采集 KAE 加速设备的使用率、NUMA 节点的资源使用情况这些鲲鹏特有的指标,让用户可以精准掌握集群的运行状态;
  • WAAS 负载动态调度工具:可以智能感知容器的负载,自动把负载调度到最合适的鲲鹏算力节点上,还能根据业务的需求动态调整资源,把集群的资源利用率提升了 20% 以上。

除此之外,套件还配套了专门的故障案例文档,汇总了虚拟化部署、运行中最常见的上百个故障,比如虚拟机启动失败、网络不通、热迁移失败等等,每个故障都有详细的原因分析和解决方案,运维人员遇到问题不用到处查资料,直接就能快速定位解决。

5. 性能调优与故障层:把鲲鹏的算力榨干

很多用户用上鲲鹏服务器之后,总觉得性能没发挥出来,不知道怎么调优,这就是性能调优与故障层要解决的问题。

这个层是专门给用户做性能榨干和故障排查的,包含了很多专属的工具和指南:

  • PMU 虚拟化:用户可以直接在虚拟机内部,用perf工具采集 PMU 性能事件,不用登录到物理主机上,就能分析虚拟机内部的性能瓶颈,比如 CPU 缓存命中率、内存访问延迟这些,调优变得非常简单;
  • 全场景调优指南:官方整理了覆盖 vCPU 调度、内存大页、IO 虚拟化、中断优化等几十个调优项,比如针对鲲鹏的 Cluster 感知调度,能让大数据这类多线程应用的性能提升 2%~20%;还有超分场景的锁优化,当 8 核虚拟机做 1:2 超分的时候,UnixBench 跑分直接提升 40%,超分之后性能也不会掉链子;
  • 故障排查工具集:提供了专门的日志分析、性能诊断工具,能快速定位虚拟化的性能问题,比如是不是 NUMA 跨节点访问了,是不是中断负载不均衡了,一键就能找出瓶颈。

有了这一层,哪怕是没有 ARM 调优经验的运维人员,也能把鲲鹏服务器的性能发挥到极致。

二、四大核心优势:为什么说它是国产化替代的核心方案

看完了模块拆解,我们不难发现,鲲鹏 BoostKit 虚拟化套件,和市面上那些通用的虚拟化方案比,有四个无法替代的核心优势:

1. 原生 ARM 适配,无转译损耗

所有组件都是原生针对 ARM64 指令集编译优化的,没有二进制翻译的 overhead,性能比转译方案高 15% 以上,真正把鲲鹏处理器的算力彻底释放出来,不会出现 “硬件很强,软件拖后腿” 的情况。

2. 全栈一体化覆盖

从虚拟机到容器,从云平台到加速层,一站式覆盖所有虚拟化场景,用户不用自己去拼凑各个组件,不用一个个做适配,开箱就能用,部署复杂度降低了 70% 以上,大大缩短了项目的落地周期。

3. 硬件级全链路加速

基于鲲鹏的硬件加速能力,实现了计算、网络、存储三重硬件加速,把虚拟化的损耗降到最低,让虚拟化的性能几乎接近物理机,核心业务完全可以跑在虚拟化上,不用再单独部署物理机。

4. 开源生态无缝兼容

完全兼容 OpenStack、oVirt、K8s、Docker 这些主流的开源生态,用户原来在 x86 上的业务脚本、运维工具、运维经验,都可以无缝迁移过来,改造成本极低,不用重新学习新的技术栈。

三、这些场景,它都能完美适配

这套套件的能力这么强,到底适合用在什么地方?其实只要是需要虚拟化的场景,它都能胜任,尤其是这几个典型场景:

1. 政企数据中心信创改造

现在很多政企都在做信创改造,要把原来的 x86 虚拟化平台迁到国产化的鲲鹏平台上,这个时候,鲲鹏 BoostKit 就是最好的选择 —— 它完美兼容原来的 OpenStack、K8s 这些平台,业务不用改,性能还能提升,快速完成改造,不用踩适配的坑。

2. 企业私有云搭建

不管是中小企业,还是大企业的部门私有云,都需要快速搭建一个稳定、易用的虚拟化平台。这套套件一站式部署,所有组件都适配好了,还有完善的监控调优工具,运维人员可以快速上手,大大降低了私有云的建设和运维成本。

3. 云原生容器云平台

现在很多企业都在推进云原生,但是 ARM 上的容器生态一直是短板。这套套件的全栈云原生组件,都已经做好了 ARM 适配,还有各种调度、加速优化,让用户可以快速搭建生产级的容器云平台,支撑高并发的微服务业务。

4. 边缘计算节点

边缘节点的资源往往比较有限,需要把每一分算力都用满。这套套件的轻量虚拟化,加上硬件加速能力,能让边缘节点的资源利用率提升 20% 以上,同时保证业务的性能,支撑边缘的 AI 推理、视频处理这些高负载业务。

收藏举报
Level 1
0
帖子
0
粉丝
0
获赞