孟德尔随机化的准备工作,GWAS数据的网站下载方法 小花 生信果 2024-01-14 19:00:53 转自公众号:生信花http://mp.weixin.qq.com/s?__biz=MzkzODUxNjcwMA==&mid=2247486607&idx=1&sn=af8d5f7328af7fa190bde1e98add844e 不知道小伙伴们发现了没有,现在孟德尔随机化挺火的,在生信圈子里几乎可以说是随处可见,小果身边的人总是提起,小伙伴们是不是也想要尝试一下呀,桥豆麻袋,小伙伴们不要着急,想要做孟德尔随机化,得先有数据,这个数据还不是常见的转录组数据那种表达矩阵,而是GWAS数据,所谓GWAS,全称叫Genome-wide association study,也就是全基因组关联分析,是指在人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(SNP),从中筛选出与疾病相关的SNPs。 我们常说的GWAS数据一般是指GWAS Summary,这种文件里记载的是一个个的SNP位点信息,包括位点,P值等信息。 想要获得这些数据,就要去了解一下GWAS的各大数据库。 1.OpenGWAS数据库 https://gwas.mrcieu.ac.uk/ 这个数据库可以说是查找和下载GWAS数据最常用的数据库了,它长这样 随便搜点东西,就会进入下面这个搜索页面 我们最常用的搜索方式就是在这个特征搜索栏里进行搜索,打上疾病或者特征的名字就可以了。 下面是一些基本信息,主要就是看一下ID,因为我们可以通过这个ID利用TwoSampleMR包直接进行分析,ID最前面的字母表明了它属于哪个数据库,finn就代表这个数据集来自于芬兰数据库。 这个数据库是最重要的,一方面是因为它可以和R包TwoSampleMR联动,直接进行分析,另一方面也是因为它整合了很多其他的数据库,数据比较齐全。 我们可以点进去看一下。 看到这个数据集有个Download VCF的标志,这种数据一般就是可以下载的,一般来讲,如果没有这个标志,就说明这个数据可能未公开或者无法下载,但是这个也不绝对。 2.GWAS Catalog https://www.ebi.ac.uk/gwas/home 这也是一个常用的数据库,但这个数据库里经常会有一些不太完整的数据,所以我们查找的时候需要注意一下。 可以在Summary statistics里进入下一个界面 这里点击Available studies就可以进入搜索页面了 可以通过Traits这个选项框来搜索查找我们需要的数据。 点击FTP Download可以查看可下载的数据,这里注意一下大小,一般那种400多M的数据才是完整数据,数据太小的话可能在做孟德尔随机化时找不到合适的SNP位点。 前面GCST开头的ID号有的也可以在上面的openGWAS数据库里搜到。 3.easyGWAS https://easygwas.biochem.mpg.de/ 后面的这几个数据库虽然不像前面这两个应用的这么多,但礼多人不怪嘛,多了解一点总没坏处。 easyGWAS是一个web应用,并于2017年发表在The Plant Cell期刊上,数据方面,提供可浏览可下载的GWAS研究数据,包括8个物种在内的585份公开发表的研究数据,12份公开的数据集,574种表型,功能方面,支持在线GWAS分析等等。 4.GWAS Atlas https://ngdc.cncb.ac.cn/gwas/ GWAS Atlas是一个人工收集的涉及植物、动物GWAS研究数据的网站,最新版于2022年发表在Nucleic Acids Research期刊上。数据方面,提供可浏览可下载的GWAS研究数据、表型注释结果,包括15个物种在内的3412份公开发表的研究数据,830份出版的文献,144种表型,共涉及278190个显著关联位点。功能方面,支持lead SNP和基因查找,支持曼哈顿图和QQ图绘制,支持GWAS数据上传等等。 5.GWAS Central https://www.gwascentral.org/ GWAS Central也是一个专注于人类GWAS研究的数据收集网站,最新版于2023年发表在Nucleic Acids Research期刊上。数据方面,目前已经收集了5000多份公开的研究数据,1700多种表型。功能方面,支持基因、表型、变异位点等查询,提供所有GWAS研究的全基因组显著关联位点交互式核型浏览图,支持GWAS数据上传等等。 好了,这么多GWAS数据库,小伙伴们看得眼花缭乱了吧,不要着急,慢慢了解,相信你们都了解了之后,一定会对你们的孟德尔随机化分析有帮助的,好了,今天的主要内容就是这些了,大家有什么问题欢迎来分享讨论哟。 往期推荐 1.搭建生信分析流水线,如工厂一样24小时运转Snakemake——进阶命令 2.比blast还优秀的序列比对工具?HMMER来了 3.对单细胞分析毫无头绪?让popsicleR领你入门 4.小果带你绘制ROC曲线评估生存预测能力 5.软件包安装、打怪快又好,1024G存储的生信服务器;还有比这更省钱的嘛!!!