两分钟!教你画出TSS富集热图!

小果最近沉迷ATAC-seq中无法自拔,这就带大家来学习绘制ATAC-seq中的TSS富集热图。

首先,我们需要用到的软件是deeptools。这里小果给大家简单介绍一下deeptools:deeptools 是一套基于 python 开发的工具,适用于有效处理分析高通量测序数据,可用于 ChIP-seq, ATAC-seq 或 MNase-seq。deeptools 包含了多个有用的模块,可以处理 BAM 文件或 bigWig 文件,进行多种质量检查,创建标准的 bedGraph 和 bigWig 格式的归一化覆盖度文件,允许不同文件之间的比较(例如,处理组和对照组)。最后,使用这些归一化和标准化的文件,deeptools 可以创建许多适合发表的可视化图形,用于识别富集区域和进行基因组的功能注释。

简单来说,Deeptools的主要用途如下:

  1. 处理 bam 文件 或者 bam 转化的 bigwig 文件;
  2. 数据质量控制;
  3. 作图,比如热图、折线图

deeptools的安装十分简单,它的安装方法有多种,最简单的一种是使用 conda 命令:

conda install -c bioconda deeptools

这样可以自动安装 deeptools 及其所有的 python 依赖项

另一种方法是使用 pip 命令:

pip install deeptools

这样也可以自动安装 deeptools 及其所有的 python 依赖项

这里小果考考小伙伴们,你们还记得TSS是什么吗?如果你知道的话,那么小果觉得你真是泰酷辣!

揭晓答案咯:

TSS 是转录起始位点(transcription start site)的缩写,是指一个基因的 5’ 端转录的第一个碱基,它是与新生 RNA 链第一个核苷酸相对应 DNA 链上的碱基,通常为一个嘌呤(A 或 G)。TSS 是基因转录的起点,也是启动子的一部分。启动子是一段区域,与 RNA 聚合酶结合并能够起始 mRNA 的合成。TSS 前即 5’ 末端的序列称为上游,而把其后即 3’ 末端的序列称为下游。

Deeptools下载完成之后,小果开始带小伙伴们画TSS富集图咯

首先准备bw文件,先建索引,然后转bw,然后取注释bed文件,接着形成矩阵文件,最后绘制TSS富集图

下面是第一步:对bam文件建立索引,转bw文件

samtools index test.bam

bamCoverage -b test.bam -o test.bw

下面是获取注释bed文件,这里需要用到选用物种的参考基因组注释文件嗷

awk ‘$3 == “gene”‘ test.gff3 | awk ‘BEGIN{FS=”\t|=|;”;OFS=”\t”}{print $1,$4-1,$4}’ > gene.bed

又用到了我们的老朋友awk,不会的小伙伴们赶紧学起来呀

下面是形成矩阵文件,用 ComputeMatrix 计算全基因组范围内 peaks 在基因特征的分布情况。

小果的代码是这样的:

computeMatrix reference-point –referencePoint TSS -p 15 -b 10000 -a 10000 -R gene.bed -S test.bw –skipZeros -o test_TSS.gz –outFileSortedRegions test_genes.bed

下面是参数的解释:

reference-point # 选择模式

-p 15 # 线程数

–referencePoint TSS # 选择参考点,还可以选择TES, center

-b 10000 -a 10000 # 感兴趣的区域,-b上游,-a下游

-R # 基因注释信息

-S # 提供的 bigwig 文件

–skipZeros

–outFileSortedRegions # 输出的文件名

下面就是最后一步绘制富集图啦,小果的代码是这样的:

plotHeatmap -m test_TSS.gz -out test_Heatmap.png

下面就是小果画出来的TSS富集图啦,是不是很美观呢?

今天的TSS富集热图学习就到这里啦,感兴趣的小伙伴可以找小果讨论哦,我们明天见咯~