生命科学领域广泛运用脑科学、基因组学、表观遗传学、蛋白质组学等手段进行科学研究,并过数学建模与生物信息学分析实现生命系统行为的精准预测,这一过程依赖海量数据处理与高性能计算集群支撑。当前,AI技术已成为核心驱动力之一——深度学习助力多组学数据规律挖掘,AlphaFold等成果推动蛋白质结构预测革新。基于鲲鹏高性能计算解决方案,通过多样性算力融合,可显著提升研发效率,有力支撑AI for Science场景创新。
应用背景
GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。
GKL( Genomics Kernel Library )是针对GATK和HTSJDK基因测序应用的计算内核优化库,支持64bit Linux及Mac OSX平台,基于x86 AVX、AVX2、AVX-512、 multicore、FPGA实现,在ARM平台使能需将x86 AVX指令集转化为Neon指令集实现。
当前GKL主要包含三大模块:PairHMM,Smith-Waterman和DEFLATE(compression/decompression),前两者为基于AVX指令的算法优化库,DEFLATE为Intel实现的压缩解压优化库。
使用软件
应用软件: GATK4.0.0.0
基础软件:openEuler、HPCkit(毕昇编译器、Hyper MPI、KML等)
测试算例:全流程
成果
相同计算节点数,GATK应用在鲲鹏平台性能与国际主流x86相当。主要优化措施如下:
- 在鲲鹏平台上对Spark线程进行NUMA绑核可以大幅提升Spark多线程计算性能
- Spark内存分配优化策略,提升内存访问效率






