介绍
GATK全称Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,用于从sequencing数据中进行variant calling,包括SNP、INDEL。
GATK的功能主要可以分为以下几个方面:
- 诊断和质量控制工具(Diagnostics and Quality Control Tools)
- 序列数据处理工具(Sequence Data Processing Tools)
- 变异位点探索工具(Variant Discovery Tools)
- 变异位点评估工具(Variant Evaluation Tools)
- 变异位点操作工具(Variant Manipulation Tools)
- 注释模块
- 读段(reads)过滤
- 资源文件解码工具
- 参考序列实用工具
GATK4是Broad Institute公司2018年1月发布的GATK最新版本,该版本相较于上一代版本有较大改动,包含了新开发的流程和最新的基于机器学习算法的工具。GATK4极大的优化了性能、运算速度、接口灵活性以及可扩展性,端到端的流程即可基于本地也可运行于云端,同时基于Spark开发,支持集群部署。
语言:Java。
一句话描述:分析基因组的工具箱。
开源协议:BSD 3-Clause "New" or "Revised" License。
建议的版本
建议使用的版本为“GATK 4.0.0.0”。