Fastp软件:处理fastq文件它超棒!
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)
fastp是一款用于高通量测序数据质量控制和数据预处理的快速工具。
它可以对Illumina平台的测序数据进行质量控制、过滤低质量序列、截断3’端低质量序列、去除接头序列等操作,同时还可以统计序列质量分布、GC含量分布、错误率分布、N含量等信息。
fastp采用多线程加速,速度快、准确性高,并且支持多种数据输入和输出格式。今天小果想带大家一起学习下如何用fastp对原始测序数据进行处理,下面我们开始吧!
数据准备
在ncbi的sra数据库下载的拟南芥测序数据,包括四个基因型,每个基因型五个重复。
链接在这里,小果使用的样本编号为
(ERR9708198,ERR9708199,ERR9708200,ERR9708201,ERR9708202,ERR9708297,ERR9708298,ERR9708299,ERR9708300,ERR9708301,ERR9708388,ERR9708389,ERR9708390,ERR9708391,ERR9708392,ERR9708690,ERR9708691,ERR9708692,ERR9708693,ERR9708694)
数据的具体下载方法可以查看往期内容:小果发现用SRA Toolkit工具下载转录组数据很好用!
这里就不再赘述了,直接放代码:
nohup prefetch -O . $(<srr_acc_list.txt) &<="" span="">
fastq-dump --gzip --split-files *.sra &
gunzip *.fastq.gz
软件下载
仍然使用我们的老朋友miniconda下载,真的很方便,miniconda的安装方法小果也分享过哦~
conda create --name fastp -y
conda activate fastp
conda install -c bioconda fastp
数据处理
##提取文件名输出到txt文件
for file in `ls *_1.fastq.gz`; do
echo $(basename "$file"_1.fastq.gz | cut -f1 -d'_') >> sample.txt
done
#
for sample in `cat sample.txt`; do
echo ${sample} |
fastp
--in1 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_1.fastq.gz
--in2 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_2.fastq.gz
--out1 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_1_clean.fastq.gz
--out2 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_2_clean.fastq.gz
done
在这里可以把上述代码做成脚本来运行和管理。其中in1表示输入的read1的fastq文件out1表示输出的过滤后的read1的clean reads.注意修改代码中的路径为自己的哦~小果是直接运行的脚本:
nohup bash fastp.sh > fastq_log &
没有意外的话,让我们来看看结果吧!以下就是我们得到的过滤后的reads了,成就感满满!
好啦,今天的内容暂时就到这里了,我们下期继续!
欢迎使用:云生信 – 学生物信息学 (biocloudservice.com)
如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)
扫码加小果
领取生信大礼包
点击“阅读原文”立刻拥有
↓↓↓