利用bwa将基因组比对到参考基因组,你学会了吗?
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)
BWA (Burrows-Wheeler Aligner)是一个用于DNA序列比对的快速、高效、可扩展的软件工具。
它采用了一种基于Burrows-Wheeler Transform (BWT)的算法,可以将长度为几GB的序列数据集与参考序列进行比对。BWA的比对速度和准确性都非常高,被广泛应用于基因组学、转录组学、表观遗传学等领域的研究中。
BWA的主要特点包括:
1. 高效快速:BWA采用了BWT算法和一些优化策略,可以在较短的时间内完成大规模的比对任务。
2. 准确性高:BWA采用了一些质量控制策略,如配对信息、序列长度等,可以提高比对的准确性。
3. 多功能:BWA支持不同类型的序列比对,包括单端比对、双端比对、重测序、局部比对等。
4. 可扩展性强:BWA可以处理多个比对任务,支持多线程和分布式计算,能够高效地处理大规模的数据集。
了解这么多之后我们开始吧!还记得小果之前带大家做过fastqc质控的数据吗,我们刚好继续往下做。
#安装软件
conda create --name bwa -y
conda activate bwa
conda install -c bioconda bwa -y
#构建参考基因组的索引,注意替换路径,其中tair_bwa为生成文件的前缀
bwa index -p /media/desk16/iyun003/GBS_test/ERR_SRA/tair_bwa_index/tair_bwa /media/desk16/iyun003/download/ninanjie_data/GCF_000001735.4_TAIR10.1_genomic.fna
成功之后会产生如下5个文件:
###将基因组比对到参考基因组上,可以使用下面这个脚本:
#!/bin/bash
REF=/media/desk16/iyun003/GBS_test/ERR_SRA/tair_bwa_index/tair_bwa #设定参考基因组文件路径
for sample in `cat sample.txt`; do #遍历样本列表
fq1=/media/desk16/iyun003/GBS_test/ERR_SRA/clean_reads/${sample}_1_clean.fastq.gz #设定样本前向read文件路径
fq2=/media/desk16/iyun003/GBS_test/ERR_SRA/clean_reads/${sample}_2_clean.fastq.gz #设定样本反向read文件路径
echo ${sample} $fq1 $fq2 | #打印样本名和文件路径信息
bwa mem -t 6 -R "@RGtID:${sample}tLB:${sample}tPL:ILLUMINA3000tSM:${sample}" $REF $fq1 $fq2 #使用BWA进行比对,并设置读组信息
-o /media/desk16/iyun003/GBS_test/ERR_SRA/tair_sam/${sample}.sam #将比对结果输出到SAM格式文件
done #结束遍历
#在后台运行脚本:
nohup bash tair_sam.bash > sam.log &
看一下结果:
怎么样,你学会了吗!
好啦,今天的内容暂时就到这里了,我们下期继续!
欢迎使用:云生信 – 学生物信息学 (biocloudservice.com)
如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)
扫码加小果
领取生信大礼包
点击“阅读原文”立刻拥有
↓↓↓