生信人必学的软件之bedtools annotate
Bedtools是由犹他大学昆兰实验室开发的一个大量生物信息学数据处理脚本的集合,它简直是基因组数据分析的瑞士军刀,可以对bam、bed、GFF/GTF、VCF等数据进行处理,快速完成取交集、并集、补集、计数以及格式转换等操作。那么接下来,小果将分章节为大家介绍Bedtools的用法。
今天跟着小果来学习annotate这个命令的使用方法吧。
Bedtools annotate命令可以用于统计一个bed、vcf、gff与多个bed、vcf、gff文件的重叠区域的比例和数量,这样就可以对比多个序列之间的相似程度。
示例如下
bedtools annotate [OPTIONS] -I <BED/GFF/VCF> -files FILE1 FILE2 FILE3 …. FILEn
$ cat variants.bed
chr1 100 200 nasty 1 –
chr2 500 1000 ugly 2 +
chr3 1000 5000 big 3 +
$ cat genes.bed
chr1 150 200 geneA 1 +
chr1 175 250 geneB 2 +
chr3 0 10000 geneC 3 –
$ cat conserve.bed
chr1 0 10000 cons1 1 +
chr2 700 10000 cons2 2 –
chr3 4000 10000 cons3 3 +
$ cat known_var.bed
chr1 0 120 known1 –
chr1 150 160 known2 –
chr2 0 10000 know3 +
$ bedtools annotate -I variants.bed -files genes.bed conserve.bed known_var.bed
chr1 100 200 nasty 1 – 0.500000 1.000000 0.300000
chr2 500 1000 ugly 2 + 0.000000 0.600000 1.000000
chr3 1000 5000 big 3 – 1.000000 0.250000 0.000000
annotation使用参数:
Option | Description |
-Counts | 输出多个文件和-i文件重叠的个数,默认输出的是多个文件与-i文件重叠的比例。 |
-both | 同时输出多个文件与-i重叠的个数和比例 |
-s | 规定了相同的正负链。只有A和B是相同的正负链,才考虑重叠区域,默认设置不考虑正负链信息 |
-S | 规定了相反的正负链。只有A和B是相反的正负链,才考虑重叠区域,默认设置不考虑正负链信息 |
好啦,bedtools的annotation就学习到这里吧,更多生信知识欢迎关小果。
shengxinguoer
生信果
生信硬核知识解答
和小果一起学生信