调优思路
性能调优首先要发现问题,找到性能瓶颈点,然后根据瓶颈所处层级选择优化的方法。
调优分析思路如下:
- 服务端瓶颈:重点定位和分析硬件资源指标,包括CPU、内存、硬盘以及BIOS配置。对于计算密集型任务(如K-means聚类),应重点关注CPU的利用率。
- 网络瓶颈:优化网络配置是关键,尤其是网卡中断绑核,可以提升任务处理性能。
- 在进行SQL性能调优时,建议从客户端与Web的基础固定配置出发,结合理论计算公式,设定一组合理的Executor执行参数。在鲲鹏平台中,应考虑其亲和性特性进行配置调优,以充分发挥硬件优势,从而在SQL测试中获得更优的性能表现。
- 在HiBench场景中,可以根据集群的总核数,将数据分片的Partitions和Parallelism参数设置为总核数的3到5倍,从而实现更细粒度的数据分片。这有助于减小每个Task处理的数据量,提升整体任务执行效率,对性能提升具有积极作用。
- 在调优过程中,应尽量让任务运行时的CPU和内存资源处于高利用率状态。若无法同时使CPU和内存满载运行,应优先确保CPU的高利用率,再根据GC日志判断是否需要增加内存。对于内存需求较高的场景,最终调优结果可能表现为内存接近满载,而CPU保留一定余量的状态。