三分钟!HiC-Pro带你跑完Hi-C分析流程

Hello大家好,小果又来啦

小果今天使用HiC-Pro给大家分析一下Hi-C的数据

首先熟悉三维基因组的小伙伴们肯定都知道Hi-C数据的处理软件里面HiC-Pro和juicer是比较流行的,那么这两个软件的区别和侧重点是什么呢?且听小果细细道来

  1. HiC-Pro是一个灵活和高效的管道,可以从原始测序数据到规范化的联系矩阵。它支持多种限制性酶切位点,可以并行处理多个样本,可以检测和过滤PCR重复,可以生成多种格式的输出文件。
  2. juicer由两部分组成:从原始数据到创建Hi-C文件的pipeline和后续分析工具。它可以处理terabase规模的Hi-C数据集,自动注释Loops和Domains,与多个集群操作系统和Amazon Web Services兼容。它还可以利用GPU进行峰值调用。
  3. 两者的主要区别在于juicer提供了一个一键式的系统,而HiC-Pro需要用户自己配置参数和运行步骤。juicer还提供了更多的后续分析工具,如3D-DNA,可以用来辅助基因组组装。HiC-Pro支持多种限制性酶切位点,而juicer只支持HindIII和MboI两种。HiC-Pro可以生成多种格式的输出文件,如bed, matrix, pairs等,而juicer只生成hic文件。HiC-Pro可以让用户自己配置参数和运行步骤,有更多的灵活性和可定制性,而juicer是一个一键式的系统,有一些默认的设置和限制。

可能有小伙伴对第二点中的terabase表示疑问,不知道是什么,其实terabase是一个计量单位,表示10的12次方个字节,也就是一万亿个字节。它通常用来表示大规模的数据存储或传输。例如,一个terabase的Hi-C数据集就是包含了一万亿个Hi-C测序对的数据集

听说HiC-Pro软件安装坑很多?小果手把手教大家安装HiC-Pro!

  1. 首先创建自己的软件目录然后进入,接着下载HiC-Pro:

wget https://github.com/nservant/HiC-Pro/archive/refs/tags/v3.1.0.tar.gz

  1. 解压出来:

tar -zxvf HiC-Pro-3.1.0.tar.gz

  1. 使用conda根据yml文件创建新的环境

conda env create -f YOUR_PATH/HiC-Pro-3.1.0/environment.yml -n hicpro

  1. 切换到hicpro环境并安装HiC-Pro(需要root权限)

conda activate HiC-Pro

make configure

make

这样是最适合小白同学的安装啦,推荐使用官方的yml文件创建环境,如果是自己创建环境下载依赖的话,记得去修改config-install.txt文件的地址哦

下面小果开始带大家一起使用HiC-Pro来分析HiC数据啦

首先我们需要的文件是参考基因组,bowtie2软件建立的索引,含有酶切片段信息的bed文件,基因组大小信息的chrom.size文件以及Hi-C的测序数据集(这里小果使用测试数据集)

首先下载测试数据集:

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz

小果参考基因组选择的是hg38,接着使用bowtie2-build来建立索引:

bowtie2-build -f hg38.fasta hg38

参数-f指定参考基因组,后面是索引文件的前缀,最后会生成6个bt2文件

酶切片段信息的bed文件使用digest_genome.py来生成,digest_genome.py脚本在HiC-Pro-3.1.0/bin/utils目录下面:

python3 /HiC-Pro-3.1.0/bin/utils/digest_genome.py  hg38.fasta -r MboI -o hg38_MboI.bed

参数-r指定酶切种类,不区分大小写

参数-o指定生成文件名称

小果生成的hg38_MboI.bed文件如下:

其中第三列是检测到的酶切位点对应的位置

小果使用samtools和awk工具来得到chrom.size文件:

首先使用samtools软件对参考基因组建立索引:

samtools faidx hg38.fasta

然后使用awk来对fai文件进行操作:

awk ‘{print $1 “\t” $2}’ hg38.fasta.fai > hg38.chrom.sizes

上面文件的准备工作已经完成了,下面开始使用HiC-Pro软件进行分析了

不过我们首先要在HiC-Pro的软件根目录下创建一个rawdata文件夹来存放我们的测序数据,

下面我们要修改配置文件:config-hicpro.txt,下面是一些重要的设置参数:

  1. N_CPU,CPU数目;
  2. BOWTIE2_IDX_PATH,索引所在目录
  3. REFERENCE_GENOME,比对参考基因组路径及前缀
  4. GENOME_SIZE,chrom.sizes文件的路径
  5. GENOME_FRAGMENT,酶切片段的bed文件的路径
  6. LIGATION_SITE,酶切位点末端补平再次连接后形成的嵌合序列,例如HindIII,则为AAGCTAGCTT;如果是MboI则序列为GATCGATC;

配置好文件,我们就可以跑起来啦

小果的代码如下:

YOUR_PATH/bin/HiC-Pro -c YOUR_PATH/config-hicpro.txt -i YOUR_PATH/rawdata/ -o YOUR_PATH/test_re

其中,-c参数指定配置文件,-i指定数据的路径,-o指定生成文件夹的路径

生成的日志文件在-o指定的文件夹里面

下面是小果的结果文件:

其中,bowtie_results:比对结果所在目录;

hic_results:hic矩阵及分析结果所在目录;

logs:存放分析日志;

rawdata:链接了原始数据;

tmp:存放中间文件

目录bowtie_results下共有三个文件夹:

  1. bwt2:存放合并后的bam文件和统计结果
  2. bwt2_global:存放全局比对结果
  3. bwt2_local:存放局部比对结果

目录hic_results下面有四个文件夹:

  1. data:存放valid pair reads及其他数据文件
  2. matrix:存放不同分辨率矩阵文件
  3. pic:存放统计分析图片
  4. stats:存放统计表

今天的关于HiC-Pro软件的学习就到这里啦,感兴趣的小伙伴可以找小果讨论,有感觉生信分析复杂的小伙伴可以直接使用我们的生信小工具哦,链接在这:http://www.biocloudservice.com/home.html,我们明天见咯~