难道你不想一秒钟看透基因组的秘密吗?maftools包,让研究基因组突变不再是难题!






难道你不想一秒钟看透基因组的秘密吗?maftools包,让研究基因组突变不再是难题!

小果  生信果  2024-05-07 19:00:50

小果又来啦,研究基因组学的同学们注意了,今天小果带来的是基因组学中研究突变问题的佼佼者——maftools包,maftools是一个用于多序列比对结果分析的强大工具包,主要用于处理MAF(Multiple Alignment Format)文件。MAF文件存储了多个样本的基因突变信息,maftools包提供处理MAF文件的丰富的功能和方法,通过使用maftools包,我们可以读取、总结和分析这些数据,深入探索基因组的突变类型和分布规律,帮助我们对MAF文件进行可视化分析。
接下来,我们将要学习如何利用maftools包读取MAF文件,并查看样本和基因的突变信息,以及如何通过绘制堆叠条形图、箱线图和waterfall图等图表,来让我们可以更直观地展示样本和基因的突变情况。通过对maftools包的学习,我们将更深入地了解基因组的突变情况,发现不同样本和基因的突变类型和分布规律,小果希望大家能够充分利用maftools包这一强大工具,深入学习和应用,为基因组学研究的进步贡献自己的一份力量!接下来,就让小果带领大家开启对maftools包的学习之旅吧!    
          
本次介绍的R包需要较多的硬件资源,在服务器可以更加流畅运行,同学们如果没有自己的服务器欢迎联系我们使用服务器租赁~



公众号后台回复“111”

领取本篇代码、基因集或示例数据等文件

文件编号:240423

需要租赁服务器的小伙伴可以扫码添加小果,此外小果还提供生信分析,思路设计,文献复现等,有需要的小伙伴欢迎来撩~

maftools包的介绍

maftools包是一个用于多序列比对结果分析的R包,主要处理MAF(Multiple Alignment Format)文件。MAF文件存储多序列比对信息,如基因突变和样本信息。maftools包可读取MAF文件,总结和分析数据,包括样本和基因的突变信息。其丰富的图表函数可可视化数据,如堆叠条形图、箱线图和waterfall图,直观展示数据特征。结合临床数据分析,可全面了解样本突变情况。maftools包功能强大且易用,帮助用户快速准确分析基因组突变信息,探索基因变异类型和分布规律,为生物学研究提供支持和参考。Maftools包为多序列比对结果研究提供便利和支持。
          
maftools包的安装
需要R语言版本为4.3,在控制台中输入以下命令:
if (!require("BiocManager", quietly = TRUE))    install.packages("BiocManager ")BiocManager::install("maftools") # 在BiocManager环境下安装maftools    查看是否安装成功packageVersion("maftools") # 查看maftools版本
显示为2.18.0版本,则表示已经成功安装了maftools包。
          
maftools包可视化MAF文件示例
MAF文件简介:
MAF(Multiple Alignment Format)文件是一种用于存储多序列比对结果的标准文件格式。它通常由多个块(block)组成,每个块包含一个序列的比对信息,包括序列的名称、起始位置、比对状态等。MAF文件能够存储多个物种的基因组或蛋白质序列在不同物种之间的比对结果,为进化分析和序列比对提供了便利。作为一种标准化格式,MAF文件被广泛应用于生物信息学领域,许多序列比对工具和软件都支持MAF格式的输入和输出,MAF文件的使用使得多序列比对的结果存储和共享变得更加方便和高效。
MAF文件包含许多字段,从染色体名称到宇宙注释等各种信息。然而,maftools中的大多数分析都使用以下字段。
必需字段:Hugo_Symbol、Chromosome、Start_Position、End_Position、Reference_Allele、Tumor_Seq_Allele2、Variant_Classification、Variant_Type和Tumor_Sample_Barcode。    
推荐字段:一个包含VAF(变异等位基因频率)和氨基酸变化信息的非MAF特定字段。
数据准备工作:
read.maf()函数可以读取MAF文件,并以多种方式对其进行总结,将其存储为MAF对象。尽管MAF文件本身已足够进行可视化分析,但建议与MAF中样本注释结合进行可视化分析。本文采用示例文件’tcga_laml.maf.gz’和’tcga_laml_annot.tsv’作为演示示例,二者为收集到的临床数据,以及相关注释。
library(maftools) # 载入maftools包laml.maf = system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools')  # 载入“tcga_laml.maf.gz”数据laml.clin = system.file('extdata', 'tcga_laml_annot.tsv', package = 'maftools')  # 载入“tcga_laml_annot.tsv”数据laml = read.maf(maf = laml.maf, clinicalData = laml.clin) # 将两个数据组合到变量laml中
输出以下结果就表示数据加载成功:
查看laml数据信息:
class(laml) # 查看laml数据类型
可知laml为maftools包的MAF对象,maftools包提供了一系列图标函数来查看MAF文件格式中的信息,小果在这里就简单演示三个,同学们感兴趣的话可以自行去查阅maftools包的参考手册哦。
laml # 显示laml整体信息
getSampleSummary(laml) # 显示样本突变信息
getGeneSummary(laml) # 显示基因突变信息
MAF信息图表可视化:
我们可以使用plotmafSummary()函数来绘图对MAF文件中的数据进行可视化分析,例如绘制变异数量的堆叠条形图,并按变异类型来做出箱线图展示多元信息。
plotmafSummary(maf = laml, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE) # 画出堆叠条形图和箱线图
结果如图:    
根据图表显示的结果,我们可以观察到突变类型主要是Missense_Mutation,即非同义突变。这种突变方式通常是由单个核苷酸的变化引起的,被称为SNP(单核苷酸突变)。在这些突变中,最常见的是C(胞嘧啶)变为T(胸腺嘧啶)。此外,我们还可以看到样本平均突变数为9个,其中最高可以达到34个突变。在突变最多的三个基因中,分别是DNMT3A,FLT3和NPM1。DNMT3A基因主要发生Missense_Mutation,这意味着突变导致了氨基酸序列的改变。而NPM1基因的主要突变类型是Frame_Shift_Ins,即移码插入突变,这种突变会导致蛋白质序列的改变。
为了更直观的展示突变信息,我们还可以使用oncoplot()函数,把上述突变最多的10个基因的信息展示在一张waterfall图中,相关命令如下:
oncoplot(maf = laml, top = 10) # 对排名前十的基因绘制waterfall图    
结果如下图所示:
由图可知waterfall图更加直观的展示了,每一个基因发生的突变数量和类型,并且每一个突变都可以对应到具体的样本,从而可以查看该样本的其他突变基因和对应的突变类型。
          
以上就是对maftools包的全部介绍了,通过今天的学习,我们深入了解了maftools包在多序列比对结果分析中的重要作用,学会了如何读取MAF文件、查看样本和基因的突变信息,并通过各种图表直观地展示了数据的特征和趋势。通过堆叠条形图、箱线图和waterfall图等可视化方式,我们能够清晰地了解样本中不同基因的突变情况,从而为进一步的分析和研究提供了重要参考。小果希望大家能够充分利用maftools包这一强大工具,探索更多关于基因组的奥秘,为生物学研究做出更大的贡献。
              
同学们如果觉得自己写代码麻烦,可以体验一下我们的云生信小工具,只需输入数据,即可轻松生成所需图表。立即访问云生信
http://www.biocloudservice.com/home.html),开启便捷的生信之旅!
   

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果


往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!