宏基因组质控过程中FastQC使用及结果解读






宏基因组质控过程中FastQC使用及结果解读

小花  生信果  2023-09-04 19:02:21

点击蓝字 关注我们

今天小花就为大家介绍一下宏基因组分析的第一步—质控中质量评估软件FastQC的使用和结果解读。

FastQC用于快速评估测序数据的质量。它能够生成质量报告,显示各个碱基的质量分数和序列质量分布,帮助检测低质量的碱基和潜在的测序问题。接下来小花就来教大家如何安装和使用FastQC。


首先我们需要安装,可以用conda安装:

conda install FastQC

当然conda有时候安装较慢且可能安装失败,大家可以到官网下载之后解压:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.3.zip,或者在linux上用命令:

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.3.zip

unzip fastqc_v0.11.3.zip

进入解压目录,设置权限,配置环境变量:

cd FastQC/

chmod 755 fastqc

export PATH=/home/user/FastQC/:$PATH

测试一下:

fastqc –help

如果能看到帮助文件说明就安装成功了。之后创建一个结果文件夹qc,开始运行:

mkdir qc

fastqc –outdir qc #输出文件夹

–threads 8#线程数

A1.fq.gz#序列文件

A2.fq.gz

每个序列生成两个结果文件,1个网页报告文件和1个质控后的zip文件。


小花主要对网页版为大家解读。

Filename是序列文件名称

Encoding指测序平台的版本和相应的编码版本号,可看出是Phred 33 或是Phred 64 质量分数的编码方式。

Total Sequences输入reads总数量。

Sequence length 是测序的长度。

%GC 是我们需要重点关注的一个指标,这个值表示的是全部序列中的GC含量,这个数值一般是物种特异的,因此如果实验数据不同分组之间的微生物组成和功能有差异,%GC这个值大概率也是有差异的。

左边summary里面绿色的勾是合格,警告是黄色叹号,不合格是红叉。


接下来小花就从上到下依次为大家展示和分析结果图。

这个图横轴为read长度,纵轴为质量得分,柱状表示该碱基位置所有序列的测序质量的统计,我们这个reads每个碱基质量都是很好的。


这个图是每条reads的quality的均值的分布,横轴表示质量分数,纵轴表示每个值对应的reads数目,当测序结果主要集中在高分中,证明测序质量良好。


这个图是对所有reads的每一个位置的ATCG四种碱基的分布图,用于检查是否有AT,GC分离现象。横轴为碱基长度分布,纵轴表示该位置所含对应碱基的百分比,图中4条线分别代表A,C,T,G在每个位置上的平均含量。


接着我们就可以使用fastp进行质量控制、适配体修剪、NGS引物修剪等质控过程啦。

这个图统计reads的平均GC含量的分布,红线是我们的数据的情况,蓝线是理论分布(正态分布),注意这儿小花也是一个×,不过宏基因组数据的GC含量不合格是很正常的。


这个图是显示reads每个位置出现N的比率。小花为大家解释一下N是什么:当出现测序仪不能分辨的碱基时会产生N,因此过多的N就代表我们的测序数据质量并不高。


这个图是reads长度的分布,质量好的数据往往reads的长度都集中分布在一个地方。


这个图是统计序列完全一致的reads的频率,横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。


这个结果说明我们数据中没有over-represented的序列,即没有某个大量出现的序列。

这个图显示我们的序列中是否有接头,如果有就必须要去除,横轴表示碱基位置,纵轴表示接头所占的百分比。


好啦,这就是FastQC的使用教程和结果解读啦,后续小花会为大家带来质量控制、适配体修剪、NGS引物修剪等质控软件,希望大家能够跟着小花学习更多宏基因组的知识。


欢迎使用:云生信  – 学生物信息学 (biocloudservice.com)


如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)



(点击阅读原文跳转)

 点一下阅读原文了解更多资讯