获取基因集的宝库,MSigDB数据库
收录于话题
小伙伴们好啊,小果和大家又见面了,大家在做GSEA分析的时候有没有想过,那些富集用的数据库里面有哪些基因,我们找基因集的时候能不能从这个数据库里找,接下来就让我们一起来了解一下吧。
Gene Set Enrichment Analysis,中文名称为基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法,在提出该方法的同时还对应提供了分析的软件GSEA和一个基因集数据库MSigDB。
对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。
这里的基因集有九个大类
01
H: hallmark gene sets
该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。共包含50个基因集。
02
C1: positional gene sets
该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。包含299个基因集。
03
C2:curated gene sets
该类别包含了已知数据库,文献和专家支持的基因集信息。
04
C3 : regulatory target gene sets
该类别包含了miRNA靶基因和转录因子结合区域等基因集合。
05
C4 : computational gene sets
该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因。
06
C5 : GO gene sets
该类别包含了Gene Ontology对应的基因集合,分为3大类别,即BP,MF,CC。
每个基因集对应一个GO term。
07
C6 : oncogenic signatures
该类别包含已知条件处理后基因表达量发生变化的基因,包括189个基因集。
08
C7 : immunologic signatures
该类别包含了免疫系统功能相关的基因集合。
09
C8 : cell type signature gene sets
包含在人类组织的单细胞测序研究中确定的细胞类型的簇标记物的基因集,共包含700个基因集。
功能通路的开头可以帮助我们快速找到想要的基因集,如HP_SEVERE_LACTIC_ACIDOSIS,HP开头,需要在C5的HPO里找。
好了,小伙伴们,这就是今天的主要内容了,小伙伴们有什么问题欢迎和小果讨论分享啊
推荐阅读