在Spark引擎上的应用
- 简介
- 算子和表达式支持情况
介绍Spark 3.3.1引擎在使用OmniOperator算子加速特性时,OmniOperator算子加速特性支持的算子和表达式,以及支持的算子和表达式的数据类型列表。
- 安装SparkExtension
OmniOperator算子加速特性支持Spark引擎,需在管理节点和所有计算节点安装Spark引擎,并配置openEuler操作系统的SparkExtension依赖。用户根据需求安装Spark 3.1.1或Spark 3.3.1,并安装其对应版本的SparkExtension。Spark 3.1.1对应SparkExtension 3.1.1,Spark 3.3.1对应SparkExtension 3.3.1。可通过spark-shell --version命令查询Spark版本。
- 配置Spark配置文件
完成Spark引擎相应安装后,还需在OmniOperator算子加速的配置文件中添加Spark相关配置内容才能执行业务。
- 打包与上传OmniOperator安装包
- 执行Spark引擎业务
Spark使用交互式页面命令行来执行SQL任务,需要注意的是Spark侧看SparkExtension是否生效需要在SQL语句前加EXPLAIN语句,或者在Spark UI页面查看,如果算子是以Omni开头的则代表SparkExtension生效。
- (可选)安装并执行Spark UDF业务
仅在使用OmniOperator算子加速UDF功能的情况下,才需要执行Spark UDF业务,执行前需先执行Spark引擎业务。当前的OmniOperator算子加速UDF插件仅支持Simple UDF,若OmniOperator算子加速UDF不支持,会回退到原生Spark。