基因组结构变异(SV)检测之BreakDancer






基因组结构变异(SV)检测之BreakDancer

小果  生信果  2023-11-12 19:01:05

你了解你的基因组么?它是否有结构变异?今天小果给大家推荐一个巨简单好用的基因组大片段结构变异检测工具:BreakDancer,跟着小果一起来学习吧!
结构变异是指基因组中大于50bp的插入、缺失、倒位或易位等变化,它们与许多遗传疾病和癌症息息相关。然而,检测结构变异并不容易,因为它们通常分布在重复区域或低复杂度区域,这些区域难以用传统的测序方法覆盖。幸运的是,BreakDancer很好的解决了这个问题!
BreakDancer是一款基于配对端测序数据的结构变异检测软件,它可以快速、准确地识别出基因组中的各种类型的结构变异。BreakDancer的原理是利用测序文库的插入片段大小的分布特征,找出那些与平均值显著偏离的reads,然后根据它们的方向和距离推断出可能发生的结构变异。BreakDancer还可以利用多个文库的信息,提高检测的准确性。
我们可以在下面两个网址下载BreakDancer
https://github.com/genome/breakdancer
或者
https://sourceforge.net/projects/breakdancer/files/
注意:安装Breakdancer前要安装并配好samtools、perl和GD模块,不然会报错哦。  
我这里下载的是breakdancer的源文件,需要自己解压配置。
解压:
unzip breakdancer-master.zip
会产生一个breakdancer-master目录,进入这个目录:
cd breakdancer-master/
安装:
Cd build-commonCmake -DCMAKE_BUILD_TYPE=release -DCMAKE_INSTALL_PREFIX=/usr/localMake
运行make的时候要多等一会,不要着急哦!结束后在build-common/bin目录下会产生一个breakdancer-max可执行文件
运行命令测试一下,出现以下结果则安装成功。太棒啦!
./breakdancer-max
接下来就可以做基因组结构变异检测啦!
数据准备:这里我们用的是与参考基因组比对过的bam文件,且需要对其进行排序并构建bai索引。
开始运行:运行perl目录下的bam2cfg.pl命令,生成配置文件。
命令:perl bam2cfg.pl xxx.bam > xxx.cfg,这里可以根据自己的需要修改参数哦!·-q INT:最小映射质量,默认值为 35·-m:使用映射质量而不是替代映射质量。·-s:最小平均插入大小,默认值为 50·-C:将默认系统从 Illumina 更改为 SOLiD。·-c FLOAT:以标准差为单位的截止值,默认值为 4·-n INT:估计插入大小的平均值和标准差所需的观察次数,默认值为 10000·-v FLOAT:变异系数的截止值,默认值为 1·-f STRING:一个两列制表符分隔的文本文件(RG,LIB),指定 RG=>LIB 映射,当 BAM 标头不完整时有用。·-b INT:直方图中的箱数,默认值为 50·-g:输出映射标志分布。·-h:绘制每个 BAM 库的插入大小直方图。
输出的配置文件内容:
readgroup:  #Read Group IDplatform:illumine #测序平台map:  #BAM文件路径readlen: #平均read长度lib:library1 #文库名称num:10001  #读取数量lower:  #插入片段长度下限upper:  #插入片段长度上限    mean:  #平均插入长度std:  #插入片段长度标准差exe:samtools view
最后build-common/bin目录,使用breakdancer-max鉴定结构变异(由于文件较大,运行速度较慢,可后台运行):
nohup ./breakdancer-max /path/to/xxx.cfg > xxx.out &可以根据自己需要增加参数:·-o STRING:仅对单个染色体进行操作,默认为所有染色体。·-s INT:区域的最小长度,默认值为 7·-c INT:以标准差为单位的截止值,默认值为 3·-m INT:最大 SV 大小,默认值为 1000000000·-q INT:最小替代映射质量,默认值为 35·-r INT:建立连接所需的最小读取对数,默认值为 2·-x INT:忽略区域的单倍体序列覆盖率的最大阈值,默认值为 1000·-b INT:建立连接的缓冲区大小,默认值为 100·-t:仅检测跨染色体重排,默认关闭。·-d STRINGSV 支持读取将按库保存的 fastq 文件的前缀。·-g STRING:以 BED 格式转储 SV 和支持读取,用于 GBrowse·-l:分析 Illumina 长插入(mate-pair)库。·-a:按库而不是按 bam 打印出拷贝数和支持读取,默认关闭。·-h:打印出等位基因频率列,默认关闭。·-y INT:输出分数过滤器,默认值为 30
输出的结果文件共有14列:
1.Chromosome 1
2.Position 1
3.Orientation 1
4.Chromosome 2
5.Position 2
6.Orientation 2
7.Type of a SV
8.Size of a SV
9.Confidence Score
10.Total number of supporting read pairs
11.Total number of supporting read pairs from each map file
12.Estimated allele frequency
13.Software version
14.The run parameters
第1-6列用于指定两个结构变异断点的坐标。Orientation1记录了映射到锚定区域正(+)链或负(-)链上的读数。
第 7 列是检测到的结构变异类型:DEL(缺失)、INS(插入)、INV(倒位)、ITX(染色体内易位)、CTX(染色体间易位)和未知。
第 8 列是结构变异的大小(bp)。
第 9 列是可信度得分,分数越高,越可靠。
第 10 列是支持reads数。
第 11 列可用于剖析支持reads的来源。
第 12 列是估计等位基因频率。    
          
 
例子:
1 10000 10+0- 2 20000 7+10- CTX -296 99 10 tB|10 1.00 BreakDancerMax-0.0.1 t1
解释:检测到了一个从第1号染色体的10000位置开始,进入第2号染色体的20000位置的染色体间易位。这个易位有10个支持读对,它们来自一个名为tB的文库。可信度得分为99,这意味着算法对这个易位的检测结果非常有信心。😊
 
breakdancer的优势在于它可以利用测序片段的距离和方向信息,以及片段覆盖度和质量分数,来推断出SV的存在和位置。breakdancer还可以对多个样本进行联合分析,从而提高检测的灵敏度和特异性。breakdancer的输出结果是一个标准的VCF文件,其中包含了SV的坐标、类型、大小、置信度和其他相关信息,你可以方便地用其他工具进行后续的注释和可视化。因此,如果你想做基因组结构编辑检测,有不知道选哪款软件好的话,BreakDancer不妨一试哦,它不会让你失望的!

往期推荐

1.搭建生信分析流水线,如工厂一样24小时运转Snakemake——进阶命令
2.比blast还优秀的序列比对工具?HMMER来了
3.对单细胞分析毫无头绪?让popsicleR领你入门
4.小果带你绘制ROC曲线评估生存预测能力
5.软件包安装、打怪快又好,1024G存储的生信服务器;还有比这更省钱的嘛!!!