强力推荐!Juicer处理Hi-C数据






强力推荐!Juicer处理Hi-C数据

小图  生信果  2023-07-19 19:00:40

Hello,大家好,小图又跟大家见面啦!

大家对Hi-C了解多少呢?这里小图首先给大家简单介绍一下Hi-C。Hi-C是一种用于测量基因组中不同位置之间的三维相互作用的技术。它可以用于研究基因组的结构和功能,比如基因调控、染色体域、环状结构等。


Hi-C的原理如下图所示

Hi-C的原理是基于染色质连接捕获(3C)的方法,它利用形式甲醛将空间上相邻的染色质片段交联起来,然后用限制性内切酶将交联的染色质切割成小片段,再用连接酶将切割后的片段连接起来,形成嵌合的连接产物。Hi-C的特点是它可以全面地测量基因组中任意两个位置之间的相互作用,而不是局限于特定的区域或目标。它通过在连接处引入生物素标记的核苷酸,然后用亲和纯化的方法,将含有连接处的DNA片段富集并进行深度测序。Hi-C的结果是一个相互作用矩阵,其中每个元素表示两个染色质片段之间的联系频率,也就是它们在空间上相互接近的概率。联系频率可以反映染色质片段之间的距离和紧密程度,从而揭示基因组的三维结构特征。


那么今天小图给大家分享一个处理Hi-C十分方便的软件:juicer

juicer是一个处理Hi-C数据的软件,是一种用于分析千碱基分辨率的Hi-C数据的平台。

juicer包括了一个从fastq原始数据文件生成Hi-C图的流程,以及一些用于在Hi-C图上进行特征注释的命令行工具。它可以用于研究基因组的三维结构和功能。

juicer的流程主要包括以下几个步骤:

  1. 对fastq文件进行质量控制和过滤,去除低质量的读段和重复的读段。

  2. 对过滤后的读段进行比对,将它们映射到参考基因组上,并生成sam或bam格式的文件。

  3. 对比对后的文件进行后处理,将它们分割成不同的染色体,并生成hic格式的文件。

  4. 对hic文件进行归一化,消除系统性偏差,并生成kr或vc格式的文件。

  5. 对归一化后的文件进行分析,提取感兴趣的特征,比如拓扑结合域、环状结构、相互作用矩阵等。

那么小图教大家如何使用juicer去处理Hi-C数据,这里带大家生成hic文件,生成hic文件之后大家可以根据自己的想法来做一些分析,例如AB区室划分,TAD分析等。Juicer官网区分了各种使用场景,这里小图就默认大家是CPU版本了嗷,详细的细节大家可以去看juicer的wiki嗷:https://github.com/aidenlab/juicer/wiki


juicer的脚本(juicer.sh)大概处理流程是这样的:

文件输入->bwa比对->排序->合并->去除PCR重复->生成hic文件

上面的流程中需要用到bwa比对软件,所以没安装的小伙伴记得使用之前安装bwa哦

下面是小图的代码:

#创建工作目录,并下载juicermkdir ./opt cd optgit clone https://github.com/theaidenlab/juicer.git# 创建软连接ln -s juicer/CPU scriptscd scripts/commonwget http://hicfiles.tc4ga.com.s3.amazonaws.com/public/juicer/juicer_tools.1.7.6_jcuda.0.8.jarln -s juicer_tools.1.7.6_jcuda.0.8.jar juicer_tools.jarcd ../..# 参考基因组建立索引,这里小图使用的是hg38的参考基因组mkdir referencescp YOUR_hg38_PATH/hg38.fasta references/bwa index  hg38.fastacd ..# 添加限制性内切酶位点信息,小伙伴们注意自己的是不是 MboI 酶哦mkdir restriction_sitescd restriction_sites/# 生成 hg38_MboI.txt 文件python ../juicer/misc/generate_site_positions.py  MboI  hg38_MboI ../references/hg38.fasta# 生成chrom.size文件awk 'BEGIN{OFS="t"}{print $1, $NF}' hg38_MboI.txt > hg38.chrom.sizescd ..# 添加 fastq 文件,小图采用是官方的测试数据集mkdir fastq && cd fastqwget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gzwget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gzcd ..# 运行 juicerscripts/juicer.sh  -D YOUR_juicer_PATH -y restriction_sites/hg38_MboI.txt  -z references/hg38.fasta -p restriction_sites/hg38.chrom.sizes -s MboI

最后生成的结果文件生成在aligned文件夹中,流程中生成的文件在splits文件夹中(例如比对生成的sam文件),aligned文件夹中中就有大家最关注的hic文件啦,大家仔细看会发现有两个hic文件,其中的inter_30.hic是设置了mapQ threshold > 30过滤后的结果。

hic文件的格式大家可以看下面的链接:

https://github.com/aidenlab/hic-format/blob/master/HiCFormatV9.md


小图的splits文件夹是这样的:


小图的aligned文件夹是这样的:


今天的关于juicer软件的学习就到这里啦,感兴趣的小伙伴可以找小图讨论,有感觉生信分析复杂的小伙伴可以直接使用我们的生信小工具哦,链接在这:http://www.biocloudservice.com/home.html,我们明天见咯~

欢迎使用:云生信平台 ( http://www.biocloudservice.com/home.html)

往期推荐

三分钟!HiC-Pro带你跑完Hi-C分析流程

【一文一分钟】带你读懂WGCNA结果图

初探PLINK文件格式


👇点击阅读原文进入网址