TE注释结果不会看?小果教你!






TE注释结果不会看?小果教你!

小果  生信果  2023-06-07 19:00:05

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)

当进行基因组注释时,TE(转座子元件)注释结果是一个非常重要的部分。然而,这些结果可能会让生物信息学新手感到困惑。


在本文中,小果将向大家介绍如何读懂TE注释结果(理解EDTA的使用和输出 问答 ·欧舒君/EDTA 维基 ·GitHub)。

首先打开我们的输出结果目录:

 

文件比较多,我们重点看以下几个文件,首先看一下GFF3文件:

1. 

GCF_000001735.4_TAIR10.1_genomic.fna.mod.EDTA.intact.gff3

此文件仅包含结构完整的 TE,包括基因组中的LTRs, TIRs, 和Helitrons. 由于 TE(插入到另一个 TE)的嵌套性质以及错误注释,此文件中的条目可能重叠。


2. 

GCF_000001735.4_TAIR10.1_genomic.fna.mod.EDTA.TEanno.gff3

此文件包含结构完整和碎片化的TEs,并代表全基因组TE注释,可以说上一个文件是该文件的子集。


 

每一列包含了以下信息:

seqid:序列的ID

source:注释来源

sequence_ontology:注释类型

start:元素的起始位置(以1为起点

end:元素的结束位置。

score:注释的可信度或置信度,300 用于过滤掉低置信度匹配项

strand:元素所在的链,可以是 “+”(正链)或 “-“(负链)

phase:GFF3 格式要求的阶段划分信息,此字段填充为.

attributes:元素的注释信息,包含元素的ID、名称、分类和同源性等信息

其他文件:

GCF_000001735.4_TAIR10.1_genomic.fna.mod.EDTA.TEanno.sum

摘要文件,考虑了重叠的注释,并对 TE 长度和拷贝数进行了总结

放一部分截图,结果很清楚了:


Class列列出了TE的类别信息;

Count列表示该类别下所有TE元素在样本中出现的次数总和;

bpMasked列即被遮蔽的碱基对数量;

%masked列表示被遮蔽的碱基对所占比例。

“–”表示该类别下没有发现任何TE。

total interspersed行表示整体统计结果,显示了所有TE类别的总和。

 好啦,通过小果的介绍,有没有看懂了呢?

 

欢迎使用:云生信  – 学生物信息学 (biocloudservice.com)

如果想用服务器可以联系微信:18502195490(快来联系我们使用吧!)


微信号 | 18502195490

知乎 | 生信果

点击“阅读原文”立刻拥有

↓↓↓