部署Spark引擎
部署Spark引擎,具体请参见《Spark 部署指南(CentOS 7.6&openEuler 20.03)》。部署Spark时请参考表1配置spark-defaults.conf文件参数。
参数 |
推荐值 |
含义 |
---|---|---|
spark.eventLog.enabled |
true |
是否开启eventLog。开启之后Spark任务会生成日志,训练模型需要日志作为输入数据。 |
spark.eventLog.dir |
hdfs://server1:9000/spark2-history |
Spark任务的eventLog日志目录。 |
spark.eventLog.compress |
true |
是否开启日志压缩。 |
spark.network.timeout |
600s |
Spark网络超时时间。创建视图过程中,shuffle read可能会超时重试,导致数据不一致。可通过适当调大参数进行调整。 |