极致缩减算法,发挥每Bit存储价值!
发表于 2022/02/20
0
引言
行业数字化不断推进,数据量从PB级向ZB级增长,行业用户对数据中心基础设施提出了更高的存储性价比需求。本期由华为计算产品线算法专家罗斯哲、朱洪德、孙勇深入浅出介绍鲲鹏BoostKit如何通过极致的数据压缩&数据压紧组合算法,实现存储成本和性能双收益。
为什么要“压榨”数据?
为保证磁盘读写效率和磁盘寿命,数据写入时会进行一种补零对齐操作,但往往会造成存储空间浪费,这种问题在采用分布式存储的业务系统(如企业文档信息管理系统、工厂产品质检系统等)中尤为常见。
数据补零对齐产生的空间浪费
鲲鹏BoostKit压缩算法&压紧算法给数据双重“压力”
首先,采用压缩率和性能兼具的鲲鹏BoostKit压缩算法对数据进行高效压缩。
与业界压缩算法相比(如高性能LZ4算法,高压缩率ZSTD压缩算法等),鲲鹏BoostKit压缩算法实现更佳的压缩率和性能平衡。
再采用鲲鹏BoostKit压紧算法解决由补零对齐操作带来的数据浪费问题。
压紧算法让数据块尽可能紧凑的存放到盘上空间,提高空间利用率。
以企业ERP系统为例,采用鲲鹏BoostKit压缩算法&压紧算法后可实现同等数量的硬盘存2倍的数据,同时,读取和存储速度提升高达50%。