运行和验证

操作步骤

  1. 使用PuTTY工具,以root用户登录服务器。
  2. 执行以下命令进入测试算例存放目录。

    cd /path/to/CASE

  3. 执行以下命令解压算例文件包。

    gzip -d Homo_sapiens.GRCh38.dna.chromosome.2.fa.gz
    gzip -d Homo_sapiens.GRCh38.86.chr.gtf.gz

  4. 执行以下命令创建基因组索引。

    mkdir chr1_hg38_index
    { time STAR --runThreadN 96 --genomeSAindexNbases 12 --runMode genomeGenerate --genomeDir chr1_hg38_index --genomeFastaFiles Homo_sapiens.GRCh38.dna.chromosome.2.fa --sjdbGTFfile Homo_sapiens.GRCh38.86.chr.gtf --sjdbOverhang 99 ; } 2>&1 |tee genome-index.log

  5. 执行以下命令比对基因组。

    { time STAR --runMode alignReads --outSAMtype BAM Unsorted --readFilesCommand zcat --genomeDir chr1_hg38_index/ --outFileNamePrefix Homo_sapiens.GRCh38 --readFilesIn TG_r1.fastq.gz TG_r2.fastq.gz ; } 2>&1 |tee Mapping.log

  6. 对比基因组完成后,会生成以下文件及目录。

    • Homo_sapiens.GRCh38Aligned.out.bam
    • Homo_sapiens.GRCh38Log.final.out
    • Homo_sapiens.GRCh38Log.out
    • Homo_sapiens.GRCh38Log.progress.out
    • Homo_sapiens.GRCh38SJ.out.tab
    • Homo_sapiens.GRCh38_STARtmp

  7. 创建基因组索引及基因组对比时,软件不会自动输出相关运行时间或性能的日志需要在测试命令中通过time指令将整体运行时间重定向写入日志文件中。

    查看日志中最后的time命令输出中的“real”数值,单位是时间“x分钟y秒”,数值越低性能越优。

    输出的结果如下信息所示。

    [root@XA320V2-19 CASE]# cat Mapping.log
    Jan 16 20:42:41 ..... started STAR run
    Jan 16 20:42:41 ..... loading genome
    Jan 16 20:42:42 ..... started mapping
    Jan 16 20:42:53 ..... finished mapping
    Jan 16 20:42:53 ..... finished successfully
    real    0m11.581s
    user    0m10.703s
    sys     0m0.579s