中文
注册

生命科学行业概述

生命科学领域广泛运用脑科学、基因组学、表观遗传学、蛋白质组学等手段进行科学研究,并过数学建模与生物信息学分析实现生命系统行为的精准预测,这一过程依赖海量数据处理与高性能计算集群支撑。当前,AI技术已成为核心驱动力之一——深度学习助力多组学数据规律挖掘,AlphaFold等成果推动蛋白质结构预测革新。基于鲲鹏高性能计算解决方案,通过多样性算力融合,可显著提升研发效率,有力支撑AI for Science场景创新。

行业应用场景

基因测序
基因测序技术是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性,已经广泛应用于医疗和非医疗等各个领域,如产前检查,遗传检测,癌症靶向治疗等,高通量低成本的测序技术让基因测序走进千家万户。
基因数据分析过程根据研究目的不同,会有I/O密集型、CPU密集型、内存密集型等各种计算实例需求,需要海量基因数据的分析与挖掘。目前已经有GATK、Ont-tombo 、HISAT2 等50+应用完成鲲鹏适配。
冷冻电镜
冷冻电镜(cryo-electron microscopy,cryo-EM)技术是将生物大分子在毫秒时间尺度内快速冷冻在玻璃态的冰中,应用低温透射电子显微镜收集生物大分子的二维投影,并利用三维重构的方法得到大分子三维精细结构的生物物理学技术。对计算密集度极高:包括图像数据校正、有效大分子颗粒识别、颗粒聚类、空间构造和数据转换,一次作业的数据处理时间往往需要数天。高速I/O:需要在很短的时间读入包含数百GB数据的大文件;relion、 eman2等已经完成鲲鹏适配迁移,性能更优。

应用优化案例

应用背景
GATK是Genome Analysis ToolKit的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling软件之一。
GKL( Genomics Kernel Library )是针对GATK和HTSJDK基因测序应用的计算内核优化库,支持64bit Linux及Mac OSX平台,基于x86 AVX、AVX2、AVX-512、 multicore、FPGA实现,在ARM平台使能需将x86 AVX指令集转化为Neon指令集实现。
当前GKL主要包含三大模块:PairHMM,Smith-Waterman和DEFLATE(compression/decompression),前两者为基于AVX指令的算法优化库,DEFLATE为Intel实现的压缩解压优化库。
使用软件
应用软件: GATK4.0.0.0
基础软件:openEuler、HPCkit(毕昇编译器、Hyper MPI、KML等)
测试算例:全流程
成果
相同计算节点数,GATK应用在鲲鹏平台性能与国际主流x86相当。主要优化措施如下:
  • 在鲲鹏平台上对Spark线程进行NUMA绑核可以大幅提升Spark多线程计算性能
  • Spark内存分配优化策略,提升内存访问效率