小果教你用TransDecoder轻松预测蛋白开放阅读框序列






小果教你用TransDecoder轻松预测蛋白开放阅读框序列

小果  生信果  2022-12-03 19:00:28

收录于话题

#数据库#生信实操

小果之前主要是在处理数据挖掘,从公共数据库里找现成的表达矩阵。但小果今天接到个话,要处理基因序列,就是有一个转录本的fasta序列文件,需要预测一下它的蛋白序列,找一下开放阅读框,这个操作其实不算复杂,有个软件就行了,就是TransDecoder


先说一下,这是linux系统下的软件,所以我们的操作要在linux系统下进行,首先是要安装软件,这个软件其实还是挺友好的,因为他只要下载下来就行,不需要单独安装。可以在linux系统下直接使用下面这个命令。

wget https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1

也可以先下载下来然后再传输到linux系统里。


简单说一下fasta文件,就是一行标题,然后下面一行或几行序列

TransDecoder.LongOrfs -t target_transcripts.fasta


默认情况下,TransDecoder.LongOrfs将识别至少100个氨基酸长的ORF。可以通过’-m’参数降低此值,但可以知道,使用更短的最小长度标准,误报ORF预测的比率会急剧增加


TransDecoder.Predict -t target_transcripts.fasta

最终的文件可以在当前目录找到,也就是后缀为.pep, .cds, .gff3和.bed的文件


一般来说,可以使用TransDecoder对无参转录组的拼接结果序列预测其CDS,所以我们可以先将拼接序列用BLAST比对nr以及swissprot蛋白数据库,然后提取其比对上的同源序列的位置来识别CDS,最后再通过TransDecoder的第一步和第三步来预测那些未比对上的序列的CDS。这个小伙伴们了解一下就好。


软件会创建一个工作目录(例如transcripts.transdecoder_dir /)保存结果,其中包含:

longest_orfs.pep: 满足最小长度标准的所有ORF,无论编码潜力如何。

longest_orfs.gff3: 目标转录本中所有ORF的位置

longest_orfs.cds: 所有检测到的ORF的核苷酸编码序列

longest_orfs.cds.top_500_longest: top 500最长的ORF,用于训练编码序列的马尔可夫模型


以上是TransDecoder.LongOrfs的结果,下面是TransDecoder.Predict的预测结果。


hexamer.scores: 每个k-mer的对数似然分数(编码/随机)

longest_orfs.cds.scores: 6个阅读框中每个ORF的对数似然和分数

longest_orfs.cds.scores.selected: 根据评分标准选择的ORF的加入(如顶部所述)

transcripts.fasta.transdecoder.pep: 最终候选ORF的肽序列;删除较长ORF中的所有较短候选项

transcripts.fasta.transdecoder.cds: 最终候选ORF编码区的核苷酸序列

transcripts.fasta.transdecoder.gff3: 最终选定ORF的目标转录本中的位置

transcripts.fasta.transdecoder.bed: 描述ORF位置的bed格式文件


命令是比较简单的,小伙伴们可以试一下哟,好了,今天的内容就是这些了,小伙伴们有什么问题欢迎来讨论分享啊。

扫码关注我们

shengxinguoer

生信果


生信硬核知识解答

和小果一起学生信