2024-06-16

强力推荐！Juicer处理Hi-C数据

小图生信果 2023-07-19 19:00:40

转自公众号：生信图
http://mp.weixin.qq.com/s?__biz=MzkxODUxNDgzNA==&mid=2247483809&idx=1&sn=2189f7da2795673fbfc259c8c4e8ff32

Hello，大家好，小图又跟大家见面啦！

大家对Hi-C了解多少呢？这里小图首先给大家简单介绍一下Hi-C。Hi-C是一种用于测量基因组中不同位置之间的三维相互作用的技术。它可以用于研究基因组的结构和功能，比如基因调控、染色体域、环状结构等。

Hi-C的原理如下图所示

Hi-C的原理是基于染色质连接捕获（3C）的方法，它利用形式甲醛将空间上相邻的染色质片段交联起来，然后用限制性内切酶将交联的染色质切割成小片段，再用连接酶将切割后的片段连接起来，形成嵌合的连接产物。Hi-C的特点是它可以全面地测量基因组中任意两个位置之间的相互作用，而不是局限于特定的区域或目标。它通过在连接处引入生物素标记的核苷酸，然后用亲和纯化的方法，将含有连接处的DNA片段富集并进行深度测序。Hi-C的结果是一个相互作用矩阵，其中每个元素表示两个染色质片段之间的联系频率，也就是它们在空间上相互接近的概率。联系频率可以反映染色质片段之间的距离和紧密程度，从而揭示基因组的三维结构特征。

那么今天小图给大家分享一个处理Hi-C十分方便的软件：juicer

juicer是一个处理Hi-C数据的软件，是一种用于分析千碱基分辨率的Hi-C数据的平台。

juicer包括了一个从fastq原始数据文件生成Hi-C图的流程，以及一些用于在Hi-C图上进行特征注释的命令行工具。它可以用于研究基因组的三维结构和功能。

juicer的流程主要包括以下几个步骤：

对fastq文件进行质量控制和过滤，去除低质量的读段和重复的读段。
对过滤后的读段进行比对，将它们映射到参考基因组上，并生成sam或bam格式的文件。
对比对后的文件进行后处理，将它们分割成不同的染色体，并生成hic格式的文件。
对hic文件进行归一化，消除系统性偏差，并生成kr或vc格式的文件。
对归一化后的文件进行分析，提取感兴趣的特征，比如拓扑结合域、环状结构、相互作用矩阵等。

那么小图教大家如何使用juicer去处理Hi-C数据，这里带大家生成hic文件，生成hic文件之后大家可以根据自己的想法来做一些分析，例如AB区室划分,TAD分析等。Juicer官网区分了各种使用场景，这里小图就默认大家是CPU版本了嗷，详细的细节大家可以去看juicer的wiki嗷：https://github.com/aidenlab/juicer/wiki

juicer的脚本（juicer.sh）大概处理流程是这样的：

文件输入->bwa比对->排序->合并->去除PCR重复->生成hic文件

上面的流程中需要用到bwa比对软件，所以没安装的小伙伴记得使用之前安装bwa哦

下面是小图的代码:

#创建工作目录，并下载juicermkdir ./opt cd optgit clone https://github.com/theaidenlab/juicer.git# 创建软连接ln -s juicer/CPU scriptscd scripts/commonwget http://hicfiles.tc4ga.com.s3.amazonaws.com/public/juicer/juicer_tools.1.7.6_jcuda.0.8.jarln -s juicer_tools.1.7.6_jcuda.0.8.jar juicer_tools.jarcd ../..# 参考基因组建立索引，这里小图使用的是hg38的参考基因组mkdir referencescp YOUR_hg38_PATH/hg38.fasta references/bwa index  hg38.fastacd ..# 添加限制性内切酶位点信息，小伙伴们注意自己的是不是 MboI 酶哦mkdir restriction_sitescd restriction_sites/# 生成 hg38_MboI.txt 文件python ../juicer/misc/generate_site_positions.py  MboI  hg38_MboI ../references/hg38.fasta# 生成chrom.size文件awk 'BEGIN{OFS="t"}{print $1, $NF}' hg38_MboI.txt > hg38.chrom.sizescd ..# 添加 fastq 文件，小图采用是官方的测试数据集mkdir fastq && cd fastqwget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R1_001.fastq.gzwget http://juicerawsmirror.s3.amazonaws.com/opt/juicer/work/HIC003/fastq/HIC003_S2_L001_R2_001.fastq.gzcd ..# 运行 juicerscripts/juicer.sh  -D YOUR_juicer_PATH -y restriction_sites/hg38_MboI.txt  -z references/hg38.fasta -p restriction_sites/hg38.chrom.sizes -s MboI