TE注释结果不会看？小果教你！

原创小果生信果 2023-06-07 19:00:05

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

（56线程，256G内存，个人存储1T）

当进行基因组注释时，TE（转座子元件）注释结果是一个非常重要的部分。然而，这些结果可能会让生物信息学新手感到困惑。

在本文中，小果将向大家介绍如何读懂TE注释结果（理解EDTA的使用和输出问答 ·欧舒君/EDTA 维基 ·GitHub）。

首先打开我们的输出结果目录：

文件比较多，我们重点看以下几个文件，首先看一下GFF3文件：

GCF_000001735.4_TAIR10.1_genomic.fna.mod.EDTA.intact.gff3

此文件仅包含结构完整的 TE，包括基因组中的LTRs, TIRs, 和Helitrons. 由于 TE（插入到另一个 TE）的嵌套性质以及错误注释，此文件中的条目可能重叠。

GCF_000001735.4_TAIR10.1_genomic.fna.mod.EDTA.TEanno.gff3

此文件包含结构完整和碎片化的TEs，并代表全基因组TE注释，可以说上一个文件是该文件的子集。

每一列包含了以下信息：

seqid：序列的ID

source：注释来源

sequence_ontology：注释类型

start：元素的起始位置（以1为起点

end：元素的结束位置。

score：注释的可信度或置信度，300 用于过滤掉低置信度匹配项

strand：元素所在的链，可以是 “+”（正链）或 “-“（负链）

phase：GFF3 格式要求的阶段划分信息，此字段填充为.

attributes：元素的注释信息，包含元素的ID、名称、分类和同源性等信息

其他文件：

GCF_000001735.4_TAIR10.1_genomic.fna.mod.EDTA.TEanno.sum

摘要文件，考虑了重叠的注释，并对 TE 长度和拷贝数进行了总结

放一部分截图，结果很清楚了：

Class列列出了TE的类别信息；

Count列表示该类别下所有TE元素在样本中出现的次数总和；

bpMasked列即被遮蔽的碱基对数量；

%masked列表示被遮蔽的碱基对所占比例。

“–”表示该类别下没有发现任何TE。

total interspersed行表示整体统计结果，显示了所有TE类别的总和。

好啦，通过小果的介绍，有没有看懂了呢？

欢迎使用：云生信 – 学生物信息学 (biocloudservice.com)

如果想用服务器可以联系微信：18502195490（快来联系我们使用吧！）

微信号 | 18502195490

知乎 | 生信果

点击“阅读原文”立刻拥有

↓↓↓

推荐阅读