孟德尔随机化——如何选择工具变量






孟德尔随机化——如何选择工具变量

小图  生信果  2024-01-10 19:00:40

       一、表型GWAS结果中具有显著关联的SNP
标准阈值小于5e-8显著位点(比如SNP位点数大于20个),可以直接进行后续的筛选
如果阈值小于5e-8显著位点只有个位数,甚至为0,那么可以尝试1e-7、1e-6、1e-5作为阈值筛选条件
注:1e-5阈值需要后续敏感性分析和异质性性检验结果增加解释依据。
          
二、去除连锁不平衡(LD)
设置r2=0.001和kb=10000
表示去掉在10000kb范围内与最显著SNP的r2大于0.001的SNP
设置成r2=0.3和kb=1000
表示的就是去掉在1000kb范围内与最显著SNP的r2大于0.3的SNP
参数设置r2=0.01, kb=5000即可,如在上一步基础上SNP过滤较多,也可调整参数(r2=0.1, kb=5000)
        
三、筛选MAF >1%
MAF肯定是<0.5的,因为如果>0.5,那就不是第二多。在GWAS的summary文件里经常没有MAF这一列,但是有EAF这一列,他们之间的关系就是:如果EAF>0.5,那么MAF=1-EAF;如果EAF<0.5,那么MAF=EAF。
          
四、去除弱工具变量
F检验值>10(一般F统计量大于10是比较好的,当然能大于100是更好的)
计算方法    
1.方法一
其中N表示GWAS分析中的样本量;k 表示工具变量的个数;R^ {2} 表示工具变量解释暴露因素的程度。
2.方法二
β2/SE2
注:如果方法一F值皆小于10,可尝试方法二计算
五、剔除混杂SNPs影响(上述步骤筛选后,SNP数目较多可做此步,反之不建议做)
利用PhenoScanner
网站链接:http://www.phenoscanner.medschl.cam.ac.uk/
首先打开网站
根据筛选到的SNP进行检索排除
在此处输入要查找SNP的名字    
下滑界面可浏览检索到相应性状结果
例如暴露因素是失眠
结局因素是心脏病
检索结果发现此SNP与心血管疾病有关,那么这个SNP可能是通过心血管疾病影响的心脏病,因此需要查阅文献排除是否此SNP与心血管疾病有关,如有建议剔除此SNP。
          
如果SNP数据量较多可以上传文本文件批量查询    
注:SNP数目不要超过100个
          
最后提醒一下,SNP数目多的时候统计效力足,但是异质性和多效性可能会比较大,如果去除部分SNP后,可以消除异质性和多效性,但是会导致统计效力低,使结果变成阴性。因此,大家需要好好斟酌一下自己的筛选阈值条件。上述选取原则具有一定普适性,希望大家记住,感兴趣的可以深入理解一下为什么遵循这些原则。
          
想要更好的学习和交流,快来加入小果的微信公众号(生信图)和云生信生物信息学平台(  http://www.biocloudservice.com/home.html),在这里你可以向小果提问、帮你制定相应分析操作。点击这里加入吧!    

往期推荐

1.搭建生信分析流水线,如工厂一样24小时运转Snakemake——进阶命令
2.比blast还优秀的序列比对工具?HMMER来了
3.对单细胞分析毫无头绪?让popsicleR领你入门
4.小果带你绘制ROC曲线评估生存预测能力
5.软件包安装、打怪快又好,1024G存储的生信服务器;还有比这更省钱的嘛!!!