在Spark引擎上的应用
- Spark简介
- 安装Spark引擎
OmniOperator算子加速特性支持Spark引擎,需在管理节点和所有计算节点安装Spark引擎,并配置openEuler操作系统的SparkExtension依赖。
- 配置Spark配置文件
完成Spark引擎相应安装后,还需在OmniOperator算子加速的配置文件中添加Spark相关配置内容才能执行业务。
- 执行Spark引擎业务
Spark使用交互式页面命令行来执行SQL任务,需要注意的是Spark侧看SparkExtension是否生效需要在SQL语句前加EXPLAIN语句,或者在Spark UI页面查看,如果算子是以Omni开头的则代表SparkExtension生效。
- (可选)安装Spark UDF插件
如需使用特定的数据处理操作,可使用OmniOperator算子加速 UDF功能的情况下,才需要安装Spark UDF插件。
- (可选)执行Spark UDF业务
仅在使用OmniOperator算子加速 UDF功能的情况下,才需要执行Spark UDF业务,执行前需先执行Spark引擎业务。当前的OmniOperator算子加速 UDF插件仅支持Simple UDF,若OmniOperator算子加速 UDF不支持,会回退到原生Spark。
- 在Hadoop安全集群的使用
在安全模式下,针对ORC和Parquet数据集,通过调整SparkExtension插件启动参数可优化性能。