利用gatk进行变异检测的n步走战略之一






利用gatk进行变异检测的n步走战略之一

小果  生信果  2023-06-27 19:00:47

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)


GATK(Genome Analysis Toolkit)是由Broad Institute开发的一款广泛使用的基因组分析软件


它被广泛用于变异检测、变异过滤、注释等基因组数据分析任务中。GATK提供了一套强大的算法和工具,支持多种变异检测和基因组分析任务,如SNP和indel检测、CNV检测、基因组重排、变异标记和注释等。GATK已经成为广泛使用的高通量测序数据分析工具之一,尤其在人类基因组项目和癌症研究中得到广泛应用。


GATK主要提供以下几个方面的功能


1.数据预处理:包括质量控制、序列比对和比对质量控制、局部重比对、碱基质量控制等。


2.变异检测:包括SNP和indel检测、CNV检测等。


3.基因组注释:对检测到的变异进行注释,包括基因型注释、功能注释、变异频率注释等。


4.基因组重排:对基因组进行分块,提高分析效率。


5.基因组分析管道:整合各种分析步骤,提供一条完整的基因组分析流程。


本期小果就带大家感受一下gatk的魅力!数据还是之前处理过的拟南芥20个样本的数据集。

先安装一下软件:


conda create --name gatk -yconda activate gatkconda install -c bioconda gatk -y# 使用GATK工具的CreateSequenceDictionary命令创建fasta文件的字典文件gatk CreateSequenceDictionary -R /media/desk16/iyun003/download/ninanjie_data/GCF_000001735.4_TAIR10.1_genomic.fna -O /media/desk16/iyun003/GBS_test/ERR_SRA/tair_gatk_index/tair_gatk.dict


上期已经利用bwa将基因组比对到参考基因组上了,我们等会直接调用这部分数据。

 

使用gatk的sortsam对sam文件进行排序,注意修改文件路径哦:


# 定义参考序列文件路径REF=/media/desk16/iyun003/download/ninanjie_data/GCF_000001735.4_TAIR10.1_genomic.fna# 循环读取样本名for sample in $(cat /media/desk16/iyun003/GBS_test/ERR_SRA/sample.txt); do    # 打印样本名    echo ${sample}    # 使用GATK的SortSam工具对SAM格式数据进行排序    gatk SortSam     -I /media/desk16/iyun003/GBS_test/ERR_SRA/tair_sam/${sample}.sam     -O /media/desk16/iyun003/GBS_test/ERR_SRA/tair_sam/${sample}.sort.bam     -R $REF     -SO coordinate --CREATE_INDEXdone


看一下结果,怎么样,你的结果有没有跑出来呢?


好啦,今天的内容暂时就到这里了,我们下期继续!


欢迎使用:云生信  – 学生物信息学 (biocloudservice.com)

如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)


扫码加小果

领取生信大礼包

点击“阅读原文”立刻拥有

↓↓↓