【PLINK质量控制】哈温平衡是什么?为什么进行哈温平衡过滤?






【PLINK质量控制】哈温平衡是什么?为什么进行哈温平衡过滤?

小图  生信果  2023-09-09 19:00:33

点击蓝字

关注小图

全基因组关联研究(Genome-Wide Association Study,GWAS)迅速发展,为探索疾病的发病机制做出了突出贡献,也为精准医学的发展奠定基础。在进行GWAS分析时,经常会使用到PLINK软件,对于新手来说可能掌握质控比较困难,今天开始小图继续给大家分享PLINK质控的操作方法


在全基因组关联分析的文章中,我们经常会看到对研究的基因位点是否符合哈温平衡(Hardy Weinberg)进行检验。那么为什么要这么做呢?具体的方法和原理又是什么?


哈温平衡检验


基因平衡定律在随机交配的大群体中,如果没有其他因素(如突变、选择、迁移、漂变)的干扰,基因频率一代一代下去始终保持不变;总是处于一种平衡状态,即从上一代到下一代基因型频率不改变,也意味着基因频率保持不变。


当针对一对常染色体上的等位基因时:

可以应用卡方检验来验证Hardy-Weinberg平衡,把计算得到的基因频率代入,计算基因型平衡频率,再乘以总人数,求得预期值(e)。把观察数(O)与预期值(E)作比较,进行χ2检验。病例组和对照组的基因型分布的观察值和预期值差异无显著性(P>0.05),符合遗传平衡定律:比如下图为一个具体的Hardy-Weinberg遗传平衡检验:


小图举例说明一下

HO:观测值符合基因平衡定律分布;

HA:观测值不符合基因平衡定律分布;

 MM=233;MN=385;NN=129    pm=(MM+1/2*MN)/(MM+MN+NN);qn=(NN+1/2*MN)/(MM+MN+NN)    p=pm*pm;H=2*pm*qn;Q=qn*qn    p=c(P,H,Q)    data=c(MM,MN,NN)    chisq.test(data,p=p)


结果显示


哈温平衡过滤和MAF过滤的区别?


这两个概念一个是对基因频率进行的筛选,一个是对基因型频率进行的筛选。对于一个位点“AA AT TT”,其中A的频率为基因频率,AA为基因型频率。MAF直接是对基因频率进行筛选,而哈温平衡检验,则是根据基因型推断出理想的(AA,AT,TT)的分布,然后和实际观察的进行适合性检验,然后得到P值,根据P值进行筛选。即P值越小,说明该位点越不符合哈温平衡。


目的有两个:一是计算所有位点的哈温检测结果;二是删除SNP中不符合哈温平衡的位点


实例操作

1. 计算所有位点的HWE的P值

plink --bfile HapMap_3_r3_8 --hardy


介绍一下plink.hwe的数据格式:
CHR 染色体
SNP SNP的ID
TEST 类型
A1 minor 位点
A2 major 位点
GENO 基因型分布:A1A1, A1A2, A2A2
O(HET) 观测杂合度频率
E(HET) 期望杂合度频率
P 哈温平衡的卡方检验P-value值


2. 提取哈温p值小于0.0001的位点

这里我们使用awk:

awk '{if($9 < 0.0001) print $0}' plink.hwe >plinkzoomhwe.hwe

共有123个位点,其中UNAFF为45个位点。


3. 设定过滤标准1e-4

plink --bfile HapMap_3_r3_8 --hwe 1e-4 --make-bed --out HapMap_3_r3_9

可以看到,共有45个SNP根据哈温的P值过滤掉了,和上面手动计算的一样。


4. 可视化

哈温的P值直方图:


关于PLINK质控中的哈温平衡检验小图就介绍完毕了,希望大家能牢记各个文件的结构信息,这在后续的数据分析中非常重要。另外欢迎小伙伴前来使用:云生信生物信息学平台(  http://www.biocloudservice.com/home.html),了解更多生信知识与技巧分析。

请期待小图的下一期PLINK质控后续分享。


欢迎使用:云生信平台 ( http://www.biocloudservice.com/home.html)

往期推荐

拟时序分析不会做?R包Monocle3来解决

孟德尔随机化—如何使用GWAS summary数据库

超详细,小图带你用beeswarm画优雅的散点蜜蜂图分析基因与临床相关性


👇点击阅读原文进入网址