强力推荐!Juicer处理Hi-C数据

Hello,大家好,小果又跟大家见面啦!

大家对Hi-C了解多少呢?这里小果首先给大家简单介绍一下Hi-C。Hi-C是一种用于测量基因组中不同位置之间的三维相互作用的技术。它可以用于研究基因组的结构和功能,比如基因调控、染色体域、环状结构等。

Hi-C的原理如下图所示

Hi-C的原理是基于染色质连接捕获(3C)的方法,它利用形式甲醛将空间上相邻的染色质片段交联起来,然后用限制性内切酶将交联的染色质切割成小片段,再用连接酶将切割后的片段连接起来,形成嵌合的连接产物。Hi-C的特点是它可以全面地测量基因组中任意两个位置之间的相互作用,而不是局限于特定的区域或目标。它通过在连接处引入生物素标记的核苷酸,然后用亲和纯化的方法,将含有连接处的DNA片段富集并进行深度测序。Hi-C的结果是一个相互作用矩阵,其中每个元素表示两个染色质片段之间的联系频率,也就是它们在空间上相互接近的概率。联系频率可以反映染色质片段之间的距离和紧密程度,从而揭示基因组的三维结构特征。

那么今天小果给大家分享一个处理Hi-C十分方便的软件:juicer

juicer是一个处理Hi-C数据的软件,是一种用于分析千碱基分辨率的Hi-C数据的平台。

juicer包括了一个从fastq原始数据文件生成Hi-C图的流程,以及一些用于在Hi-C图上进行特征注释的命令行工具。它可以用于研究基因组的三维结构和功能。

juicer的流程主要包括以下几个步骤:

  1. 对fastq文件进行质量控制和过滤,去除低质量的读段和重复的读段。
  2. 对过滤后的读段进行比对,将它们映射到参考基因组上,并生成sam或bam格式的文件。
  3. 对比对后的文件进行后处理,将它们分割成不同的染色体,并生成hic格式的文件。
  4. 对hic文件进行归一化,消除系统性偏差,并生成kr或vc格式的文件。
  5. 对归一化后的文件进行分析,提取感兴趣的特征,比如拓扑结合域、环状结构、相互作用矩阵等。

那么小果教大家如何使用juicer去处理Hi-C数据,这里带大家生成hic文件,生成hic文件之后大家可以根据自己的想法来做一些分析,例如AB区室划分,TAD分析等。Juicer官网区分了各种使用场景,这里小果就默认大家是CPU版本了嗷,详细的细节大家可以去看juicer的wiki嗷:https://github.com/aidenlab/juicer/wiki

juicer的脚本(juicer.sh)大概处理流程是这样的:

文件输入->bwa比对->排序->合并->去除PCR重复->生成hic文件

上面的流程中需要用到bwa比对软件,所以没安装的小伙伴记得使用之前安装bwa哦

下面是小果的代码:

#创建工作目录,并下载juicer

mkdir ./opt

cd opt

git clone https://github.com/theaidenlab/juicer.git

# 创建软连接

ln -s juicer/CPU scripts

cd scripts/common

wget http://hicfiles.tc4ga.com.s3.amazonaws.com/public/juicer/juicer_tools.1.7.6_jcuda.0.8.jar

ln -s juicer_tools.1.7.6_jcuda.0.8.jar juicer_tools.jar

cd ../..

# 参考基因组建立索引,这里小果使用的是hg38的参考基因组

mkdir references

cp YOUR_hg38_PATH/hg38.fasta references/

bwa index hg38.fasta

cd ..

# 添加限制性内切酶位点信息,小伙伴们注意自己的是不是 MboI 酶哦

mkdir restriction_sites

cd restriction_sites/

# 生成 hg38_MboI.txt 文件

python ../juicer/misc/generate_site_positions.py MboI hg38_MboI ../references/hg38.fasta

# 生成chrom.size文件

awk ‘BEGIN{OFS=”\t”}{print $1, $NF}’ hg38_MboI.txt > hg38.chrom.sizes

cd ..

# 添加 fastq 文件,小果采用是官方的测试数据集

mkdir fastq && cd fastq

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz

cd ..

# 运行 juicer

scripts/juicer.sh -D YOUR_juicer_PATH -y restriction_sites/hg38_MboI.txt -z references/hg38.fasta -p restriction_sites/hg38.chrom.sizes -s MboI

最后生成的结果文件生成在aligned文件夹中,流程中生成的文件在splits文件夹中(例如比对生成的sam文件),aligned文件夹中中就有大家最关注的hic文件啦,大家仔细看会发现有两个hic文件,其中的inter_30.hic是设置了mapQ threshold > 30过滤后的结果。

hic文件的格式大家可以看下面的链接:

https://github.com/aidenlab/hic-format/blob/master/HiCFormatV9.md

小果的splits文件夹是这样的:

小果的aligned文件夹是这样的:

今天的关于juicer软件的学习就到这里啦,感兴趣的小伙伴可以找小果讨论,有感觉生信分析复杂的小伙伴可以直接使用我们的生信小工具哦,链接在这:http://www.biocloudservice.com/home.html,我们明天见咯~

强力推荐!Juicer处理Hi-C数据

Hello,大家好,小果又跟大家见面啦!

大家对Hi-C了解多少呢?这里小果首先给大家简单介绍一下Hi-C。Hi-C是一种用于测量基因组中不同位置之间的三维相互作用的技术。它可以用于研究基因组的结构和功能,比如基因调控、染色体域、环状结构等。

Hi-C的原理如下图所示

Hi-C的原理是基于染色质连接捕获(3C)的方法,它利用形式甲醛将空间上相邻的染色质片段交联起来,然后用限制性内切酶将交联的染色质切割成小片段,再用连接酶将切割后的片段连接起来,形成嵌合的连接产物。Hi-C的特点是它可以全面地测量基因组中任意两个位置之间的相互作用,而不是局限于特定的区域或目标。它通过在连接处引入生物素标记的核苷酸,然后用亲和纯化的方法,将含有连接处的DNA片段富集并进行深度测序。Hi-C的结果是一个相互作用矩阵,其中每个元素表示两个染色质片段之间的联系频率,也就是它们在空间上相互接近的概率。联系频率可以反映染色质片段之间的距离和紧密程度,从而揭示基因组的三维结构特征。

那么今天小果给大家分享一个处理Hi-C十分方便的软件:juicer

juicer是一个处理Hi-C数据的软件,是一种用于分析千碱基分辨率的Hi-C数据的平台。

juicer包括了一个从fastq原始数据文件生成Hi-C图的流程,以及一些用于在Hi-C图上进行特征注释的命令行工具。它可以用于研究基因组的三维结构和功能。

juicer的流程主要包括以下几个步骤:

  1. 对fastq文件进行质量控制和过滤,去除低质量的读段和重复的读段。
  2. 对过滤后的读段进行比对,将它们映射到参考基因组上,并生成sam或bam格式的文件。
  3. 对比对后的文件进行后处理,将它们分割成不同的染色体,并生成hic格式的文件。
  4. 对hic文件进行归一化,消除系统性偏差,并生成kr或vc格式的文件。
  5. 对归一化后的文件进行分析,提取感兴趣的特征,比如拓扑结合域、环状结构、相互作用矩阵等。

那么小果教大家如何使用juicer去处理Hi-C数据,这里带大家生成hic文件,生成hic文件之后大家可以根据自己的想法来做一些分析,例如AB区室划分,TAD分析等。Juicer官网区分了各种使用场景,这里小果就默认大家是CPU版本了嗷,详细的细节大家可以去看juicer的wiki嗷:https://github.com/aidenlab/juicer/wiki

juicer的脚本(juicer.sh)大概处理流程是这样的:

文件输入->bwa比对->排序->合并->去除PCR重复->生成hic文件

上面的流程中需要用到bwa比对软件,所以没安装的小伙伴记得使用之前安装bwa哦

下面是小果的代码:

#创建工作目录,并下载juicer

mkdir ./opt

cd opt

git clone https://github.com/theaidenlab/juicer.git

# 创建软连接

ln -s juicer/CPU scripts

cd scripts/common

wget http://hicfiles.tc4ga.com.s3.amazonaws.com/public/juicer/juicer_tools.1.7.6_jcuda.0.8.jar

ln -s juicer_tools.1.7.6_jcuda.0.8.jar juicer_tools.jar

cd ../..

# 参考基因组建立索引,这里小果使用的是hg38的参考基因组

mkdir references

cp YOUR_hg38_PATH/hg38.fasta references/

bwa index hg38.fasta

cd ..

# 添加限制性内切酶位点信息,小伙伴们注意自己的是不是 MboI 酶哦

mkdir restriction_sites

cd restriction_sites/

# 生成 hg38_MboI.txt 文件

python ../juicer/misc/generate_site_positions.py MboI hg38_MboI ../references/hg38.fasta

# 生成chrom.size文件

awk ‘BEGIN{OFS=”\t”}{print $1, $NF}’ hg38_MboI.txt > hg38.chrom.sizes

cd ..

# 添加 fastq 文件,小果采用是官方的测试数据集

mkdir fastq && cd fastq

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gz

wget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gz

cd ..

# 运行 juicer

scripts/juicer.sh -D YOUR_juicer_PATH -y restriction_sites/hg38_MboI.txt -z references/hg38.fasta -p restriction_sites/hg38.chrom.sizes -s MboI

最后生成的结果文件生成在aligned文件夹中,流程中生成的文件在splits文件夹中(例如比对生成的sam文件),aligned文件夹中中就有大家最关注的hic文件啦,大家仔细看会发现有两个hic文件,其中的inter_30.hic是设置了mapQ threshold > 30过滤后的结果。

hic文件的格式大家可以看下面的链接:

https://github.com/aidenlab/hic-format/blob/master/HiCFormatV9.md

小果的splits文件夹是这样的:

小果的aligned文件夹是这样的:

今天的关于juicer软件的学习就到这里啦,感兴趣的小伙伴可以找小果讨论,有感觉生信分析复杂的小伙伴可以直接使用我们的生信小工具哦,链接在这:http://www.biocloudservice.com/home.html,我们明天见咯~