2024-06-17

孟德尔随机化——如何选择工具变量

小图生信果 2024-01-10 19:00:40

转自公众号：生信图
http://mp.weixin.qq.com/s?__biz=MzkxODUxNDgzNA==&mid=2247486090&idx=1&sn=5300cc70cee096f765b70fb417e3ae16

一、表型GWAS结果中具有显著关联的SNP

标准阈值小于5e-8显著位点（比如SNP位点数大于20个），可以直接进行后续的筛选

如果阈值小于5e-8显著位点只有个位数，甚至为0，那么可以尝试1e-7、1e-6、1e-5作为阈值筛选条件

注：1e-5阈值需要后续敏感性分析和异质性性检验结果增加解释依据。

二、去除连锁不平衡(LD)

设置r2=0.001和kb=10000

表示去掉在10000kb范围内与最显著SNP的r2大于0.001的SNP

设置成r2=0.3和kb=1000

表示的就是去掉在1000kb范围内与最显著SNP的r2大于0.3的SNP

参数设置r2=0.01, kb=5000即可，如在上一步基础上SNP过滤较多，也可调整参数（r2=0.1, kb=5000）

三、筛选MAF >1%

MAF肯定是＜0.5的，因为如果＞0.5，那就不是第二多。在GWAS的summary文件里经常没有MAF这一列，但是有EAF这一列，他们之间的关系就是：如果EAF＞0.5，那么MAF=1-EAF；如果EAF＜0.5，那么MAF=EAF。

四、去除弱工具变量

F检验值>10（一般F统计量大于10是比较好的，当然能大于100是更好的）

计算方法

1.方法一

其中N表示GWAS分析中的样本量；k 表示工具变量的个数；R^ {2} 表示工具变量解释暴露因素的程度。

2.方法二

β2/SE2

注：如果方法一F值皆小于10，可尝试方法二计算

五、剔除混杂SNPs影响(上述步骤筛选后，SNP数目较多可做此步，反之不建议做)

利用PhenoScanner

网站链接：http://www.phenoscanner.medschl.cam.ac.uk/

首先打开网站

根据筛选到的SNP进行检索排除

在此处输入要查找SNP的名字

下滑界面可浏览检索到相应性状结果

例如暴露因素是失眠

结局因素是心脏病

检索结果发现此SNP与心血管疾病有关，那么这个SNP可能是通过心血管疾病影响的心脏病，因此需要查阅文献排除是否此SNP与心血管疾病有关，如有建议剔除此SNP。

如果SNP数据量较多可以上传文本文件批量查询

注：SNP数目不要超过100个

最后提醒一下，SNP数目多的时候统计效力足，但是异质性和多效性可能会比较大，如果去除部分SNP后，可以消除异质性和多效性，但是会导致统计效力低，使结果变成阴性。因此，大家需要好好斟酌一下自己的筛选阈值条件。上述选取原则具有一定普适性，希望大家记住，感兴趣的可以深入理解一下为什么遵循这些原则。

想要更好的学习和交流，快来加入小果的微信公众号（生信图）和云生信生物信息学平台（ http://www.biocloudservice.com/home.html），在这里你可以向小果提问、帮你制定相应分析操作。点击这里加入吧！

往期推荐

1.搭建生信分析流水线，如工厂一样24小时运转Snakemake——进阶命令

2.比blast还优秀的序列比对工具？HMMER来了

3.对单细胞分析毫无头绪？让popsicleR领你入门

4.小果带你绘制ROC曲线评估生存预测能力

5.软件包安装、打怪快又好，1024G存储的生信服务器；还有比这更省钱的嘛！！！

孟德尔随机化——如何选择工具变量

孟德尔随机化——如何选择工具变量

推荐阅读

还在为基因组组装发愁？用MEGAHIT，只需简单几步，让你的基因组组装速度和效率成倍提升！

Snippy：一条命令从rawdata到进化树，一站式解决你的全基因组SNP分析！

“弯道”快才是真的快！这款基于“后缀树”算法的基因组比对工具，简直是共线性与SNP检测神器！