孟德尔随机化——如何选择工具变量
点击蓝字
关注小图
一、表型GWAS结果中具有显著关联的SNP
标准阈值小于5e-8显著位点(比如SNP位点数大于20个),可以直接进行后续的筛选
如果阈值小于5e-8显著位点只有个位数,甚至为0,那么可以尝试1e-7、1e-6、1e-5作为阈值筛选条件
注:1e-5阈值需要后续敏感性分析和异质性性检验结果增加解释依据。
二、去除连锁不平衡(LD)
设置r2=0.001和kb=10000
表示去掉在10000kb范围内与最显著SNP的r2大于0.001的SNP
设置成r2=0.3和kb=1000
表示的就是去掉在1000kb范围内与最显著SNP的r2大于0.3的SNP
参数设置r2=0.01, kb=5000即可,如在上一步基础上SNP过滤较多,也可调整参数(r2=0.1, kb=5000)
三、筛选MAF >1%
MAF肯定是<0.5的,因为如果>0.5,那就不是第二多。在GWAS的summary文件里经常没有MAF这一列,但是有EAF这一列,他们之间的关系就是:如果EAF>0.5,那么MAF=1-EAF;如果EAF<0.5,那么MAF=EAF。
四、去除弱工具变量
F检验值>10(一般F统计量大于10是比较好的,当然能大于100是更好的)
计算方法
方法一
其中N表示GWAS分析中的样本量;k 表示工具变量的个数;R^ {2} 表示工具变量解释暴露因素的程度。
方法二
β2/SE2
注:如果方法一F值皆小于10,可尝试方法二计算
五、剔除混杂SNPs影响
(上述步骤筛选后,SNP数目较多可做此步,反之不建议做)
利用PhenoScanner
网站链接:
http://www.phenoscanner.medschl.cam.ac.uk/
首先打开网站
根据筛选到的SNP进行检索排除
在此处输入要查找SNP的名字
下滑界面可浏览检索到相应性状结果
例如暴露因素是失眠
结局因素是心脏病
检索结果发现此SNP与心血管疾病有关,那么这个SNP可能是通过心血管疾病影响的心脏病,因此需要查阅文献排除是否此SNP与心血管疾病有关,如有建议剔除此SNP。
如果SNP数据量较多可以上传文本文件批量查询
注:SNP数目不要超过100个
想要更好的学习和交流,快来加入小图的微信公众号(生信图)和云生信生物信息学平台( http://www.biocloudservice.com/home.html),在这里你可以向小图提问、帮你制定相应分析操作。点击这里加入吧!
欢迎使用:云生信平台 ( http://www.biocloudservice.com/home.html)
往期推荐 |
|
|
|
👇点击阅读原文进入网址