鲲鹏社区首页
中文
注册

关键特性

OmniOperator Spark算子加速
大数据主流引擎以Java/Scala高级编程语言为主,受到语义限制,无法完全发挥CPU算力,性能也较弱于Native Code。且大数据现有引擎以行式内存数据结构进行计算,无法充分利用芯片的向量化指令。OmniOperator算子加速特性,实现算子的Native化加速,以列式内存数据格式OmniVec进行内存计算,利用鲲鹏加速库,提升算子执行效率,优化SQL计算性能,从而提升查询引擎的查询性能。
关键技术
列式存储数据格式、Native化加速、调用鲲鹏指令提升算子执行效率
应用场景
大数据离线分析场景
适用范围
Spark 3.1.1、 Spark 3.3.1、Spark 3.4.3、Spark 3.5.2、Hive 3.1.0

开源开放项目

OmniOperator
列式计算指令加速
采用C++结合向量化指令实现批处理算子,以列式内存数据格式OmniVec进行内存计算,充分利用向量化指令加速,提升SQL计算性能
163 125 22
OmniStream
列式计算指令加速
采用C++结合向量化指令实现流式算子,以列式内存数据格式OmniVec进行内存计算,充分利用向量化指令加速,提升SQL计算性能
172 132 31
OmniStateStore
状态读写加速状态恢复加速
高性能的Flink状态存储引擎
142 121 25

开发资源

文档
了解OmniRuntime架构、特性原理,帮助上手使用和贡献OmniRuntime大数据套件
课程
视频讲解,深入理解OmniRuntime大数据套件
实验
动手实践,掌握OmniRuntime大数据套件的安装和使用

支持与帮助