问题背景

某场景spark业务测试发现测试环境执行任务运行的耗时要比之前基准环境更长，需对该问题进行排查优化

应用软件

软件名称	版本
Hadoop	3.3.0
Spark	2.12-3.1.3
Hive	3.1.3

测试组网

问题分析

分析思路

运行测试时首先排查是否有硬件资源使用的瓶颈（cpu、网络、磁盘等），本次测试时排查发现计算节点硬件的资源使用率都处于较低的状态，因此开始对软件层面进行排查。

执行计划分析

在spark ui查看最慢的两个查询如下图，两个查询总共耗时9.3分钟

查看执行计划发现在大表join小表时使用的是SortMergeJoin，且存在数据倾斜导致所有数据大多集中在一个task上处理，运行缓慢，如下图。

task负载不均衡，单个task占用cpu很多，其他的则比较空闲

而查看基准环境上的执行计划发现使用的BroadcastHashJoin无数据倾斜情况，运行速度要更快。

使用BroadcastHashJoin的条件是有表大小小于spark.sql.autoBroadcastJoinThreshold（默认10M）时会使用BroadcastHashJoin。查看join的表大小已经小于10M，BroadcastHashJoin仍然没有生效。

查询资料发现使用BroadcastHashJoin时需要通过hive表元数据获取表大小是否小于 spark.sql.autoBroadcastJoinThreshold，以此来判断是否使用BroadcastHashJoin。使用DESCRIBE FORMATTED命令查看hive表元数据发现元数据中确实没有记录表大小，而基准环境中有记录表大小。

执行ANALYZE TABLE xxx COMPUTE STATISTICS命令获取所有hive表大小，执行DESCRIBE FORMATTED再次查看hive表元数据成功查询到表大小。再次跑任务查看执行计划成功使用BroadcastHashJoin。

且查询耗时明显下降，从9.3分钟下降至3分钟，如下图：