GWAS的群体分层:使用plink对基因型进行PCA






GWAS的群体分层:使用plink对基因型进行PCA

小果  生信果  2023-08-12 19:02:04

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

(56线程,256G内存,个人存储1T)


还在为如何入门生信而彷徨吗?还在为Linux系统而感到无助吗?快关注小果的微信公众号,小果手把手带你入门生信,没有门槛、没有难度,跟着效果走,啥问题都没有。


相信各位在学习GWAS原理时对GWAS的作图群体有了一定的了解,在林木、农作物等生长时间较长的物种来说,构建子代、RIL甚至NAM群体需要较长的时间,在群体构建完成之前,GWAS是少有的自然群体适合做的分析之一。尽管如此,受限于自然群体的特性,自然群体无法获得明确的谱系,一般都是通过基因型PCA确定亲缘关系,减少假阳性。因此我们需要在关联分析前对该群体做PCA分析,随后将PCA结果作为协变量加入关联分析中。


1、plink的安装


plink2.0 网站:https://www.cog-genomics.org/plink/2.0/


Plink的二进制文件支持Intel、AMD、M1等芯片。下载对应的文件后使用make、configure安装即可。


2、使用plink进行PCA分析


运行分析之前,需要自己准备基因型数据。

plink –bfile myfile –pca 3 #这里只取前3个PCA结果,如果想取其他数值,请自行设置

输出的结果文件中包括以下两个文件

plink.eigenval,特征值,共有3行数据,分别是3个PCA的特征值

plink.eigenvec,特征向量,第三四五列是3个PCA的特征向量,作图用前两个PCA

文件如图所示

PCA的可视化:

library(tidyverse)re1a=fread("plink.eigenval")re1b=fread("plink.eigenvec")
re1a$por=re1a$V1/sum(re1a$V1)*100head(re1a)
ggplot(re1b,aes(x=V3,y=V4))+geom_point()+xlab(paste0("PC1(",round(re1a$por[1],2),"%)"))+ylab(paste0("PC2(",round(re1a$por[2],2),"%)"))


如上图所示,群体间存在明显的群体分层,需要PCA结果作为协变量加入关联分析中。如果gwas没有明显的信号,可以将多个群体独立进行GWAS分析,然后再做meta分析。


至于meta分析怎么做,欢迎关注小果,小果后续继续为您推出meta分析的教程哦!


这里推荐一下小果新开发的零代码云生信分析工具平台包含超多零代码小工具,上传数据一键出图,感兴趣的小伙伴欢迎了解~

网址:http://www.biocloudservice.com/home.html


今天小果的分享就到这里,欢迎大家和小果一起讨论学习,下期再见哦!




小果友情推荐

好用又免费的工具安利