小果教你用TransDecoder轻松预测蛋白开放阅读框序列
小果之前主要是在处理数据挖掘,从公共数据库里找现成的表达矩阵。但小果今天接到个话,要处理基因序列,就是有一个转录本的fasta序列文件,需要预测一下它的蛋白序列,找一下开放阅读框,这个操作其实不算复杂,有个软件就行了,就是TransDecoder。
先说一下,这是linux系统下的软件,所以我们的操作要在linux系统下进行,首先是要安装软件,这个软件其实还是挺友好的,因为他只要下载下来就行,不需要单独安装。可以在linux系统下直接使用下面这个命令。
wget https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1
也可以先下载下来然后再传输到linux系统里。
简单说一下fasta文件,就是一行标题,然后下面一行或几行序列
TransDecoder.LongOrfs -t target_transcripts.fasta
默认情况下,TransDecoder.LongOrfs将识别至少100个氨基酸长的ORF。可以通过’-m’参数降低此值,但可以知道,使用更短的最小长度标准,误报ORF预测的比率会急剧增加
TransDecoder.Predict -t target_transcripts.fasta
最终的文件可以在当前目录找到,也就是后缀为.pep, .cds, .gff3和.bed的文件
一般来说,可以使用TransDecoder对无参转录组的拼接结果序列预测其CDS,所以我们可以先将拼接序列用BLAST比对nr以及swissprot蛋白数据库,然后提取其比对上的同源序列的位置来识别CDS,最后再通过TransDecoder的第一步和第三步来预测那些未比对上的序列的CDS。这个小伙伴们了解一下就好。
软件会创建一个工作目录(例如transcripts.transdecoder_dir /)保存结果,其中包含:
longest_orfs.pep: 满足最小长度标准的所有ORF,无论编码潜力如何。
longest_orfs.gff3: 目标转录本中所有ORF的位置
longest_orfs.cds: 所有检测到的ORF的核苷酸编码序列
longest_orfs.cds.top_500_longest: top 500最长的ORF,用于训练编码序列的马尔可夫模型
以上是TransDecoder.LongOrfs的结果,下面是TransDecoder.Predict的预测结果。
hexamer.scores: 每个k-mer的对数似然分数(编码/随机)
longest_orfs.cds.scores: 6个阅读框中每个ORF的对数似然和分数
longest_orfs.cds.scores.selected: 根据评分标准选择的ORF的加入(如顶部所述)
transcripts.fasta.transdecoder.pep: 最终候选ORF的肽序列;删除较长ORF中的所有较短候选项
transcripts.fasta.transdecoder.cds: 最终候选ORF编码区的核苷酸序列
transcripts.fasta.transdecoder.gff3: 最终选定ORF的目标转录本中的位置
transcripts.fasta.transdecoder.bed: 描述ORF位置的bed格式文件
命令是比较简单的,小伙伴们可以试一下哟,好了,今天的内容就是这些了,小伙伴们有什么问题欢迎来讨论分享啊。
扫码关注我们
shengxinguoer
生信果
生信硬核知识解答
和小果一起学生信