孟德尔随机化——如何选择工具变量






孟德尔随机化——如何选择工具变量

小图  生信果  2023-09-08 19:00:46

点击蓝字

关注小图


一、表型GWAS结果中具有显著关联的SNP


标准阈值小于5e-8显著位点(比如SNP位点数大于20个),可以直接进行后续的筛选

如果阈值小于5e-8显著位点只有个位数,甚至为0,那么可以尝试1e-7、1e-6、1e-5作为阈值筛选条件

注:1e-5阈值需要后续敏感性分析和异质性性检验结果增加解释依据。


二、去除连锁不平衡(LD)


设置r2=0.001和kb=10000

表示去掉在10000kb范围内与最显著SNP的r2大于0.001的SNP

设置成r2=0.3和kb=1000

表示的就是去掉在1000kb范围内与最显著SNP的r2大于0.3的SNP

参数设置r2=0.01, kb=5000即可,如在上一步基础上SNP过滤较多,也可调整参数(r2=0.1, kb=5000)


三、筛选MAF >1%


MAF肯定是<0.5的,因为如果>0.5,那就不是第二多。在GWAS的summary文件里经常没有MAF这一列,但是有EAF这一列,他们之间的关系就是:如果EAF>0.5,那么MAF=1-EAF;如果EAF<0.5,那么MAF=EAF。


四、去除弱工具变量


F检验值>10(一般F统计量大于10是比较好的,当然能大于100是更好的)

计算方法

方法一

其中N表示GWAS分析中的样本量;k 表示工具变量的个数;R^ {2} 表示工具变量解释暴露因素的程度。

方法二

β2/SE2

注:如果方法一F值皆小于10,可尝试方法二计算



五、剔除混杂SNPs影响


(上述步骤筛选后,SNP数目较多可做此步,反之不建议做)

利用PhenoScanner

网站链接:

http://www.phenoscanner.medschl.cam.ac.uk/


首先打开网站

根据筛选到的SNP进行检索排除


在此处输入要查找SNP的名字

下滑界面可浏览检索到相应性状结果

例如暴露因素是失眠

结局因素是心脏病

检索结果发现此SNP与心血管疾病有关,那么这个SNP可能是通过心血管疾病影响的心脏病,因此需要查阅文献排除是否此SNP与心血管疾病有关,如有建议剔除此SNP。


如果SNP数据量较多可以上传文本文件批量查询

注:SNP数目不要超过100个


最后提醒一下,SNP数目多的时候统计效力足,但是异质性和多效性可能会比较大,如果去除部分SNP后,可以消除异质性和多效性,但是会导致统计效力低,使结果变成阴性。因此,大家需要好好斟酌一下自己的筛选阈值条件。上述选取原则具有一定普适性,希望大家记住,感兴趣的可以深入理解一下为什么遵循这些原则。



想要更好的学习和交流,快来加入小图的微信公众号(生信图)和云生信生物信息学平台(  http://www.biocloudservice.com/home.html),在这里你可以向小图提问、帮你制定相应分析操作。点击这里加入吧!


欢迎使用:云生信平台 ( http://www.biocloudservice.com/home.html)

往期推荐

孟德尔随机化—如何使用GWAS summary数据库

超详细,小图带你用beeswarm画优雅的散点蜜蜂图分析基因与临床相关性

听说你还在困惑SCI配色问题?小图一文让你学会SCI顶刊的配色方案!!!


👇点击阅读原文进入网址