孟德尔随机化——如何选择工具变量

 

一、表型GWAS结果中具有显著关联的SNP

标准阈值小于5e-8显著位点(比如SNP位点数大于20个),可以直接进行后续的筛选

如果阈值小于5e-8显著位点只有个位数,甚至为0,那么可以尝试1e-7、1e-6、1e-5作为阈值筛选条件

注:1e-5阈值需要后续敏感性分析和异质性性检验结果增加解释依据。

二、去除连锁不平衡(LD)

设置r2=0.001和kb=10000

表示去掉在10000kb范围内与最显著SNP的r2大于0.001的SNP

设置成r2=0.3和kb=1000

表示的就是去掉在1000kb范围内与最显著SNP的r2大于0.3的SNP

参数设置r2=0.01, kb=5000即可,如在上一步基础上SNP过滤较多,也可调整参数(r2=0.1, kb=5000)

三、筛选MAF >1%

MAF肯定是<0.5的,因为如果>0.5,那就不是第二多。在GWAS的summary文件里经常没有MAF这一列,但是有EAF这一列,他们之间的关系就是:如果EAF>0.5,那么MAF=1-EAF;如果EAF<0.5,那么MAF=EAF。

四、去除弱工具变量

F检验值>10(一般F统计量大于10是比较好的,当然能大于100是更好的)

计算方法

  1. 方法一

其中N表示GWAS分析中的样本量; k 表示工具变量的个数; R^ {2} 表示工具变量解释暴露因素的程度。

  1. 方法二

β2/SE2

注:如果方法一F值皆小于10,可尝试方法二计算

五、剔除混杂SNPs影响(上述步骤筛选后,SNP数目较多可做此步,反之不建议做)

利用PhenoScanner

网站链接:http://www.phenoscanner.medschl.cam.ac.uk/

首先打开网站

根据筛选到的SNP进行检索排除

在此处输入要查找SNP的名字

下滑界面可浏览检索到相应性状结果

例如暴露因素是失眠

结局因素是心脏病

检索结果发现此SNP与心血管疾病有关,那么这个SNP可能是通过心血管疾病影响的心脏病,因此需要查阅文献排除是否此SNP与心血管疾病有关,如有建议剔除此SNP。

如果SNP数据量较多可以上传文本文件批量查询

注:SNP数目不要超过100个

最后提醒一下,SNP数目多的时候统计效力足,但是异质性和多效性可能会比较大,如果去除部分SNP后,可以消除异质性和多效性,但是会导致统计效力低,使结果变成阴性。因此,大家需要好好斟酌一下自己的筛选阈值条件。上述选取原则具有一定普适性,希望大家记住,感兴趣的可以深入理解一下为什么遵循这些原则。

孟德尔随机化——如何选择工具变量

一、表型GWAS结果中具有显著关联的SNP

标准阈值小于5e-8显著位点(比如SNP位点数大于20个),可以直接进行后续的筛选

如果阈值小于5e-8显著位点只有个位数,甚至为0,那么可以尝试1e-7、1e-6、1e-5作为阈值筛选条件

注:1e-5阈值需要后续敏感性分析和异质性性检验结果增加解释依据。

二、去除连锁不平衡(LD)

设置r2=0.001和kb=10000

表示去掉在10000kb范围内与最显著SNP的r2大于0.001的SNP

设置成r2=0.3和kb=1000

表示的就是去掉在1000kb范围内与最显著SNP的r2大于0.3的SNP

参数设置r2=0.01, kb=5000即可,如在上一步基础上SNP过滤较多,也可调整参数(r2=0.1, kb=5000)

三、筛选MAF >1%

MAF肯定是<0.5的,因为如果>0.5,那就不是第二多。在GWAS的summary文件里经常没有MAF这一列,但是有EAF这一列,他们之间的关系就是:如果EAF>0.5,那么MAF=1-EAF;如果EAF<0.5,那么MAF=EAF。

四、去除弱工具变量

F检验值>10(一般F统计量大于10是比较好的,当然能大于100是更好的)

计算方法

  1. 方法一

其中N表示GWAS分析中的样本量; k 表示工具变量的个数; R^ {2} 表示工具变量解释暴露因素的程度。

  1. 方法二

β2/SE2

注:如果方法一F值皆小于10,可尝试方法二计算

五、剔除混杂SNPs影响(上述步骤筛选后,SNP数目较多可做此步,反之不建议做)

利用PhenoScanner

网站链接:http://www.phenoscanner.medschl.cam.ac.uk/

首先打开网站

根据筛选到的SNP进行检索排除

在此处输入要查找SNP的名字

下滑界面可浏览检索到相应性状结果

例如暴露因素是失眠

结局因素是心脏病

检索结果发现此SNP与心血管疾病有关,那么这个SNP可能是通过心血管疾病影响的心脏病,因此需要查阅文献排除是否此SNP与心血管疾病有关,如有建议剔除此SNP。

如果SNP数据量较多可以上传文本文件批量查询

注:SNP数目不要超过100个

最后提醒一下,SNP数目多的时候统计效力足,但是异质性和多效性可能会比较大,如果去除部分SNP后,可以消除异质性和多效性,但是会导致统计效力低,使结果变成阴性。因此,大家需要好好斟酌一下自己的筛选阈值条件。上述选取原则具有一定普适性,希望大家记住,感兴趣的可以深入理解一下为什么遵循这些原则。