2024-06-17

Fastp软件：处理fastq文件它超棒！

原创 xg 生信果 2023-06-15 19:00:26

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

（56线程，256G内存，个人存储1T）

fastp是一款用于高通量测序数据质量控制和数据预处理的快速工具。

它可以对Illumina平台的测序数据进行质量控制、过滤低质量序列、截断3’端低质量序列、去除接头序列等操作，同时还可以统计序列质量分布、GC含量分布、错误率分布、N含量等信息。

fastp采用多线程加速，速度快、准确性高，并且支持多种数据输入和输出格式。今天小果想带大家一起学习下如何用fastp对原始测序数据进行处理，下面我们开始吧！

数据准备

在ncbi的sra数据库下载的拟南芥测序数据，包括四个基因型，每个基因型五个重复。

链接在这里，小果使用的样本编号为

（ERR9708198,ERR9708199,ERR9708200,ERR9708201,ERR9708202,ERR9708297,ERR9708298,ERR9708299,ERR9708300,ERR9708301,ERR9708388,ERR9708389,ERR9708390,ERR9708391,ERR9708392,ERR9708690,ERR9708691,ERR9708692,ERR9708693,ERR9708694）

数据的具体下载方法可以查看往期内容：小果发现用SRA Toolkit工具下载转录组数据很好用！

这里就不再赘述了，直接放代码：

nohup prefetch -O . $(<srr_acc_list.txt) &<="" span="">fastq-dump --gzip --split-files *.sra &gunzip *.fastq.gz

软件下载

仍然使用我们的老朋友miniconda下载，真的很方便，miniconda的安装方法小果也分享过哦~

conda create --name fastp -yconda activate fastpconda install -c bioconda fastp

数据处理

##提取文件名输出到txt文件for file in `ls *_1.fastq.gz`; do                                          echo $(basename "$file"_1.fastq.gz | cut -f1 -d'_') >> sample.txtdone                                                                ##fastp去接头、删除低质量readsfor sample in `cat sample.txt`; do                                   echo ${sample} |                                           fastp         --in1 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_1.fastq.gz         --in2 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_2.fastq.gz         --out1 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_1_clean.fastq.gz         --out2 /media/desk16/iyun003/GBS_test/ERR_SRA/${sample}_2_clean.fastq.gzdone

在这里可以把上述代码做成脚本来运行和管理。其中in1表示输入的read1的fastq文件out1表示输出的过滤后的read1的clean reads.注意修改代码中的路径为自己的哦~小果是直接运行的脚本：

nohup bash fastp.sh > fastq_log &

没有意外的话，让我们来看看结果吧！以下就是我们得到的过滤后的reads了，成就感满满！

好啦，今天的内容暂时就到这里了，我们下期继续！

欢迎使用：云生信 – 学生物信息学 (biocloudservice.com)

如果想用服务器可以联系微信：18502195490（快来联系我们使用吧！）

扫码加小果

领取生信大礼包

点击“阅读原文”立刻拥有

↓↓↓

Fastp软件：处理fastq文件它超棒！

Fastp软件：处理fastq文件它超棒！

推荐阅读

R4.4.1 已安装R包列表

☆☆slurm必读☆☆

还在为基因组组装发愁？用MEGAHIT，只需简单几步，让你的基因组组装速度和效率成倍提升！