修改Spark配置文件
配置Spark与Hadoop集群及Hive的集成环境,确保Spark能稳定运行并支持事件日志、历史查询及Hive数据访问功能。
Spark的所有配置文件都在“$SPARK_HOME/conf”目录下。
- 切换到Spark配置目录。
1cd $SPARK_HOME/conf
- 修改spark-env.sh。
- 以spark-env.sh.template为模板,拷贝一份并命名为spark-env.sh。
1cp spark-env.sh.template spark-env.sh
- 打开spark-env.sh文件。
1vi spark-env.sh - 按“i”进入编辑模式,修改环境变量JAVA_HOME为绝对路径,并指定Hadoop目录、Spark Master的IP地址和端口号、Spark所在目录。
1 2 3 4 5 6
export JAVA_HOME=/usr/local/bisheng-jdk1.8.0_262 export HADOOP_HOME=/usr/local/hadoop export SCALA_HOME=/usr/local/scala export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop export SPARK_MASTER_IP=server1 export SPARK_MASTER_PORT=7077
- 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
- 以spark-env.sh.template为模板,拷贝一份并命名为spark-env.sh。
- 修改spark-defaults.conf。
- 重命名为spark-defaults.conf文件。
cp spark-defaults.conf.template spark-defaults.conf
- 添加配置项。
1 2 3 4 5
echo "spark.master yarn" >> spark-defaults.conf echo "spark.eventLog.enabled true" >> spark-defaults.conf echo "spark.eventLog.dir hdfs://server1:9000/spark2-history" >> spark-defaults.conf echo "spark.eventLog.compress true" >> spark-defaults.conf echo "spark.history.fs.logDirectory hdfs://server1:9000/spark2-history" >> spark-defaults.conf
- 重命名为spark-defaults.conf文件。
- 创建HDFS事件日志目录。
1hdfs dfs -mkdir /spark2-history
- 同步Hadoop的配置文件core-site.xml和hdfs-site.xml。
1 2
cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/spark/conf
- 同步Hive数据库的配置。
- 打开hive-site.xml文件。
1vim ${HIVE_HOME}/conf/hive-site.xml
- 按“i”进入编辑模式,添加或修改hive.metastore.uris为以下内容。
1 2 3 4 5
<property> <name>hive.metastore.uris</name> <value>thrift://server1:9083</value> <description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description> </property>
- 按“Esc”键退出编辑模式,输入:wq!,按“Enter”键保存并退出编辑。
- 同步Hive依赖包与配置。
1 2
cp ${HIVE_HOME}/lib/mariadb-java-client-2.3.0.jar /usr/local/spark/jars cp ${HIVE_HOME}/conf/hive-site.xml /usr/local/spark/conf/
- 打开hive-site.xml文件。
父主题: 部署Spark