Fastp软件:处理fastq文件它超棒!






Fastp软件:处理fastq文件它超棒!

xg  生信果  2023-06-15 19:00:26

 生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)


fastp是一款用于高通量测序数据质量控制和数据预处理的快速工具。


它可以对Illumina平台的测序数据进行质量控制、过滤低质量序列、截断3’端低质量序列、去除接头序列等操作,同时还可以统计序列质量分布、GC含量分布、错误率分布、N含量等信息。


fastp采用多线程加速,速度快、准确性高,并且支持多种数据输入和输出格式。今天小果想带大家一起学习下如何用fastp对原始测序数据进行处理,下面我们开始吧!


数据准备

在ncbi的sra数据库下载的拟南芥测序数据,包括四个基因型,每个基因型五个重复。

链接在这里,小果使用的样本编号为

(ERR9708198,ERR9708199,ERR9708200,ERR9708201,ERR9708202,ERR9708297,ERR9708298,ERR9708299,ERR9708300,ERR9708301,ERR9708388,ERR9708389,ERR9708390,ERR9708391,ERR9708392,ERR9708690,ERR9708691,ERR9708692,ERR9708693,ERR9708694)


数据的具体下载方法可以查看往期内容:小果发现用SRA Toolkit工具下载转录组数据很好用!

这里就不再赘述了,直接放代码:

nohup prefetch -O . $(<srr_acc_list.txt) &<="" span="">fastq-dump --gzip --split-files *.sra &gunzip *.fastq.gz


软件下载

仍然使用我们的老朋友miniconda下载,真的很方便,miniconda的安装方法小果也分享过哦~

conda create --name fastp -yconda activate fastpconda install -c bioconda fastp


数据处理

##提取文件名输出到txt文件for file in `ls *_1.fastq.gz`; do                                          echo $(basename "$file"_1.fastq.gz | cut -f1 -d'_') >> sample.txtdone                                                                ##fastp去接头、删除低质量readsfor sample in `cat sample.txt`; do                                   echo ${sample} |                                           fastp         --in1 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_1.fastq.gz         --in2 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_2.fastq.gz         --out1 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_1_clean.fastq.gz         --out2 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_2_clean.fastq.gzdone


在这里可以把上述代码做成脚本来运行和管理。其中in1表示输入的read1的fastq文件out1表示输出的过滤后的read1的clean reads.注意修改代码中的路径为自己的哦~小果是直接运行的脚本:

nohup bash fastp.sh > fastq_log &

没有意外的话,让我们来看看结果吧!以下就是我们得到的过滤后的reads了,成就感满满!

 

好啦,今天的内容暂时就到这里了,我们下期继续!


欢迎使用:云生信  – 学生物信息学 (biocloudservice.com)

如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)

 

扫码加小果

领取生信大礼包

点击“阅读原文”立刻拥有

↓↓↓