【小云解读生信图】这次讲讲,基因集富集分析GSEA图怎么看?






【小云解读生信图】这次讲讲,基因集富集分析GSEA图怎么看?

eryun  生信果  2024-01-03 19:00:19

点击蓝字 / 关注我们

师兄,就上次那篇纯生信分析的文章,这都投出去一个月了,我都有些不敢登邮
做了生信分析,拿到一堆数据,看不懂图怎么办?
火山图、热图、散点图、箱式图、瀑布图···这么多类型的图都咋看?
风险模型预后评估图、GO-KEGG富集分析图、GSEA富集分析图···这些图又代表了什么结果?


小云最新栏目【小云解读生信图】上线以后,讲了火山图、热图、相关性散点图,阅读反馈都还不错
感谢粉丝朋友们的关注,小云的新栏目可以继续更新
应粉丝朋友的要求,这次讲讲GSEA图


话不多说,先看图,这应该是大家最常见到的GSEA图


doi: 10.3389/fimmu.2022.871564


1. 什么是GSEA?

Gene Set Enrichment Analysis (GAES,基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。



2. 有GO/KEGG富集分析了,为什么还要做GSEA?

GO/KEGG富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。

GSEA则不局限于差异基因,不需要指定阈值(p值或FDR)来筛选差异基因,我们可以在没有阈值限制的情况下分析我们感兴趣的基因集,而这个基因集不一定是显著差异表达的基因。GSEA分析可以将那些GO/KEGG富集分信息中容易遗漏掉的差异表达不显著却有着重要生物学意义的基因包含在内。


3. GSEA原理是什么?

给定一个排序的基因表L(基因表达矩阵)和一个预先定义的基因集S (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义),GSEA的目的是判断S里面的成员s在L里面是随机分布还是主要聚集在L的顶部或底部。这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S的成员显著聚集在L的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。上个图展示一波


doi: 10.1073/pnas.0506580102


4. GSEA图怎么看?

1)富集得分 (ES, enrichment score):反应基因集成员s在排序列表L的两端富集的程度。计算方式是,从基因集L的第一个基因开始,计算一个累计统计值。当遇到一个落在s里面的基因,则增加统计值。遇到一个不在s里面的基因,则降低统计值富集得分ES最后定义为最大的峰值。正值ES表示基因集在列表的顶部富集,表示富集通路为上调通路;负值ES表示基因集在列表的底部富集,表示富集通路为下调通路。
2)竖线:图中间部分每一条线代表基因集S中的一个基因,及其在基因列表L中的排序位置。


3)Leading-edge subset (领头亚集): 对富集得分贡献最大的基因成员,也是后续研究中重点关注的通路关键基因。若富集得分为正值,则是峰左侧的基因;若富集得分为负值,则是峰右侧的基因。
4)显著性判断(p值)
P值是用来进行显著性检验的,用来评估富集得分(ES)的显著性,P值<0.05,代表S基因集在列表L中显著富集,简单点来说,就是关注某个通路在疾病中显著富集。
再来张不一样的

ps:不一样的只是形式,解图的方法还是不变滴,万变不离其宗


(把多个通路的基因集放在一个图中展示,doi: 10.1155/2022/4254195


GSEA图的解读有没有让生信小白们豁然开朗呀?还有问题的话欢迎给小云留言或私信哦,为了让这个系列能一直更新,朋友们快来多多留言支持吧 


扫码咨询小云


合集

推荐


  双疾病  

  单基因 

 铁死亡 

肿瘤代谢

  线粒体自噬

铜死亡

免疫浸润

肿瘤微环境

  代码 

服务项目


生信热点文献复现

临床预后模型设计

生信&实验方案设计

数据库构建

共享1T生信服务器

35篇原创代码合集

示例报告


单基因在肿瘤中的生信分析

疾病药物代谢相关基因与肿瘤免疫、预后关系探讨

糖尿病周围神经病变铁死亡相关的基因分析

     

我知道你在看