ARM平台使用Bioconductor软件包方法

介绍

安装依赖包

安装Bioconductor软件包前提需要安装R语言,部分Bioconductor包还需要基于系统依赖库,例如bzip2等,一般推荐使用yum直接安装。

如下操作以R 4.3.0、Kylin V10为例,其余版本安装步骤类似。

  1. 使用PuTTY工具,以root用户登录服务器。
  2. 使用yum安装相关依赖。

    yum install libXt-devel libX11-devel readline-devel pcre2-devel libcurl-devel libtiff-devel libpng-devel libjpeg-turo-devel cairo-devel freetype-devel harfbuzz-devel pango-devel zlib-devel

  3. 下载安装包并解压。

    wget https://cran.r-project.org/src/base/R-4/R-4.3.0.tar.gz
    tar xvf R-4.3.0.tar.gz

  4. 编译安装R语言。

    cd R-4.3.0
    ./configure --prefix=/path/to/R_install
    make -j && make install

    “/path/to”表示R语言的安装路径,用户安装时请以实际路径为准。

  5. 设置环境变量。

    export PATH=/path/to/R_install/bin:$PATH
    export LD_LIBRARY_PATH=/path/to/R_install/lib/R/library:$LD_LIBRARY_PATH

安装Bioconductor

安装完R语言后,需要安装BiocManager管理器作为安装Bioconductor包的入口。

  1. 安装BiocManager。

    1. 打开R语言解析器。
      R
    2. 安装BiocManager管理器。
      install.packages("BiocManager")

      首次安装需要选择CRAN的镜像,推荐最近城市的镜像,以24:shenzhen举例。当服务器中出现“DONE(BiocManager)”,表示BiocManager管理器已安装完成。

      BiocManager的版本会根据当前R语言的版本进行匹配自动安装。

  2. 安装Bioconductor软件包。

    Bioconductor支持自动与离线安装两种方式,推荐使用自动安装方式安装。如下操作以ACME为例,其余软件包安装步骤类似。

    • 自动安装方式(适用于服务器已接通网络)
      BiocManager::install("ACME")

      当服务器中出现“DONE(ACME)”,表示ACME已经安装完成。

      当最后提示“Old packages: XXX”时,请输入n不进行更新包操作,避免产生兼容性冲突。

    • 离线安装方式(适用于依赖少的包和服务器无法接通网络)
      1. 打开ACME最新Release包地址http://www.bioconductor.org/packages/release/bioc/html/ACME.html,下载ACME的R源码包“ACME_2.56.0.tar.gz”并上传至服务器。

      2. 安装ACME。
        R CMD INSTALL ACME_2.56.0.tar.gz

        使用离线安装方式,在首次安装过程中一般会提示缺少某依赖,按照上述方法进行自动安装或离线安装缺少的依赖即可。例如以上报错为R环境中缺少Biobase和BiocGenerics包,下载Biobase和BiocGenerics包并上传至服务器,由于Biobase依赖BiocGenerics,则先安装BiocGenerics。

        1. 安装BiocGenerics。
          R CMD INSTALL BiocGenerics_0.46.0.tar.gz

          当服务器中出现“DONE(BiocGenerics)”,表示BiocGenerics已安装完成。

        2. 安装Biocbase。
          R CMD INSTALL Biocbase_2.60.0.tar.gz

          当服务器中出现“DONE(Biocbase)”,表示Biocbase已经安装完成。

      3. 再次安装ACME。
        R CMD INSTALL ACME_2.56.0.tar.gz

Bioconductor软件使用方法

本章节以ACME举例,详细使用方法可参考ACME.R或者ACME.pdf,这2个文件来源于ACME的安装目录,一般是在“/path/to/R_install/lib/R/library/ACME/doc”,其余软件包使用方法同理,或到bioconductor包社区查询。

  1. 加载ACME库。

    首先从两个nimblegen加载一些示例数据阵列,用于在ChiIP芯片实验中分析HOX基因。

    library("ACME")
    datdir <- system.file('extdata',package='ACME')
    fnames <- dir(datdir)
    example.agff <- read.resultsGFF(fnames,path=datdir)
    example.agff

    calc <- do.aGFF.calc(example.agff,window=1000,thresh=0.95)

  2. 作图和查找领域。

    函数do.aGFF.calc将ACMESet对象作为输入,窗口大小(通常为2~3是实验中预期碎片大小的倍,并且足够大,至少包括大约10探针),以及将用于确定哪些探针被计数的阈值在卡方检验中为阳性。如果需要,结果可以在R图形窗口中绘制。原始信号通常是每个寡核苷酸(芯片/总基因组DNA)的数量将显示为灰点;相应的P值将以红色显示。虚线水平线表示在调用aGFF.calc中定义的阈值。在以下示例中,R绘制了来自1号染色体上任意选择的区域,基因组坐标为10,000~50,000。

    plot(calc,chrom='chr1',sample=1)
    regs <- findRegions(calc)
    regs[1:5,]

  3. 生成用于在基因组浏览器中查看的文件。

    Affymetrix集成Genorne浏览器(IGB)是一个非常快速的跨平台(基于Java)基因组浏览器,可以以多种格式显示数据。通过生成“sgr”文件,以完全交互式的方式查看原始数据和计算的p值。一个简单的函数write.sgr将生成这样的文件,然后可以加载到浏览器。该函数还作为如何生成其他文件格式的模型。使用小的修改,可以生成其他格式。

    • 同时写入计算值和原始数据。
      write.sgr(calc)

    • 只写计算的数据。
      write.sgr(calc,raw=FALSE)

    • 导出到UCSC基因组浏览器bedgraph格式。
      write.bedGraph(calc)

  4. 退出R语言解释器,并在当前目录生成文件。

    q()

    “Save workspace image?”表示是否保存历史命令,y表示是,n表示否,c表示取消。

    ls -l

R语言使用包常用命令

以“ACME”举例,其余软件包使用方法同理。