毕业就靠它了!机器学习+共表达网络,让miRNA测序数据开出新的道路!纯生信也能发9分+!






毕业就靠它了!机器学习+共表达网络,让miRNA测序数据开出新的道路!纯生信也能发9分+!

馆长  生信果  2024-04-08 19:01:25

机器学习作为人工智能领域的核心技术之一,在医学科研领域也表现出了巨大的潜力,在现在生信文章中出现的频率越来越高!那么miRNA-seq测序分析和机器学习会碰出什么火花呢?。miRNA的整合网络和机器学习分析可以为疾病病理和预后/诊断性生物标志物提供见解~
今天馆长给大家带来一篇仅用生信分析(共表达网络+机器学习)识别AD生物标志物。这篇文章为什么纯生信的单基因分析能发表6分+呢?且听馆长细细道来~
1. 本研究使用脑组织miRNA序列作为发现数据集,进行共表达网络分析,以确定与AD、其神经病理学标志物和认知相关的网络模块;
2. 本文也进行了关键miRNA与AD、其神经病理标志物和认知的关联分析; 
3. 本文还使用ROS/MAP数据集和来自GEO的独立数据集进行了一致的miRNA共表达网络分析。此外,还使用一种机器学习方法来评估中枢miRNA对AD分类的性能。想要学习共表达网络+机器学习的小伙伴千万不要错过了~(ps:这篇文章思路比较简单,有没有给你带来一点启发呢?感兴趣的童鞋可以直接来找馆长!欢迎直接来公众号后台call!)。
   
l题目:miR-129-5p 作为阿尔茨海默病病理学和认知能力下降的生物标志物
l杂志:Alzheimer’s Research & Therapy
l影响因子:IF= 9.0
l发表时间:2024年1月
研究背景
阿尔茨海默病(AD)是痴呆症的常见原因,由于涉及复杂的神经化学和遗传因素,确切的阿尔茨海默病的发病机制仍不清楚。失调microRNA (miRNA) 的表达是导致阿尔茨海默病基因表达变化的潜在机制。miRNA 是内源性单链 RNA 分子,长度约为 20-23个核苷酸,主要通过结合特定信使 RNA (mRNA) 的 3′-非翻译端来抑制其翻译区域(3′-UTR)。一些 miRNA 已被确定在阿尔茨海默病中失调,某些 miRNA 在大脑中高度表达。miRNA 的共表达网络和机器学习分析可以提供对 AD 病理学和预后/诊断生物标志物的见解。
数据来源
数据集/队列
数据库
数据类型
详细信息
GSE157239
GEO
RNA-seq数据
8个没有认知障碍的(NCI)和8个AD患者        
ROS/MAP cohorts
Accelerating Medicines Partnership
RNA-seq数据
102 NCI和177 AD患者
          
研究思路
使用来自宗教秩序研究和 Rush 记忆与衰老项目 (ROS/MAP) (N = 702) 的脑组织 miRNA 图谱作为一项发现,进行了共表达网络分析,以识别与 AD、其神经病理学标记物和认知相关的网络模块数据集。我们对中枢 miRNA 与 AD、其神经病理学标志物和认知进行了关联分析。选择hub miRNA的靶基因后,我们对hub miRNA与其靶基因进行关联分析,然后进行基于通路的富集分析。为了复制,我们使用 ROS/MAP 数据集和来自基因表达综合库 (GEO) 的独立数据集 (N = 16) 进行了一致的 miRNA 共表达网络分析。此外,我们采用机器学习方法来评估 hub miRNA 在 AD 分类中的性能。    
主要结果
1.miRNA差异表达分析
对来自 ROS/MAP 的 177 名 AD 和 102 名 NCI 受试者中的 309 种 miRNA 进行差异表达分析。发现 15 个 miRNA 与 AD显著相关(图 1),CERAD 和 Braak 阳性组中 miR-129-5p 和 miR-132 的表达水平均显著降低(图 1)。此外,miR-129-3p、miR-129-5p、miR-132、miR-133b、miR-410、miR-433和miR-504的表达水平较高,而miR-100的表达水平较低。此外,miR-129-3p、miR-129-5p 和 miR-132 的较高表达水平与整体认知能力纵向衰退的减慢显著相关。    
图1 miRNA与诊断、临床病理特征关联分析结果热图
2.共表达 miRNA 网络分析与 AD、CERAD、Braak 和认知相关的模块
根据 702 名受试者的 miRNA 表达谱使用 WGCNA构建了无标度共表达网络。选择软阈值功率值 β = 4,并确定了四个网络模块。M3 模块的 ME 值较低,与 AD 和 CERAD 的显著相关,但与 Braak 阶段无关。此外,M3 模块的 ME 值较低与最后的整体认知表现较低相关(图2)。miRNA 的富集分析显示,M3 与葡萄糖代谢高度相关,M1 和 M2 分别与先天免疫和胚胎发育密切相关。  
图2 模块特征基因与诊断及临床病理特征的关联分析结果
3.与 AD、CERAD、Braak和认知相关的核心miRNA
在AD相关的葡萄糖代谢途径富集的M3模块中,基于TOM的模块内连接性最高的前10个miRNA被确定为核心miRNA(图3)。在这 10 个 miRNA 中, miR-129-5p与 AD、CERAD 和 Braak 呈负相关,与认知水平和变化直接相关。miR-433和miR-221的高表达水平与AD发生呈负相关,而只有miR-433与更好的认知和较慢的认知衰退相关(图3)。相比之下,miR-200a 和 miR-1260 的高表达水平与 AD 高发生率、CERAD 较高和认知能力较低有关,但与 Braak 或认知能力下降无关。最后,miR-744 仅与较低的整体认知相关。    
图3 前10个关键候选miRNA与诊断及临床病理特征的关联分析结果
4.AD 相关关键miRNA的靶基因
从 miRDB 和 TargetScan 数据库中获得了 5 个 AD 相关关键miRNA(miR-129-5p、miR-433、miR-1260、miR-200a 和 miR-221)的靶基因。RNA-Seq 数据分析确定 189、101、310、591 和 73 个靶基因分别与 miR-129-5p、miR-433、miR-1260、miR-200a 和 miR-221 相应 miRNA 的表达水平显著相关。此外,RNA-Seq 数据分析确定了总共 22、3、12、30 和 25 个分别与 AD 显著相关的靶基因(miR-129-5p、miR-433、miR-1260、miR-200a 和 miR- 221)。
5.基于通路的靶基因富集分析
KEGG通路的富集分析显示,通过RNA-Seq分析鉴定出的5个AD相关关键miRNA的靶基因主要涉及以下通路:轴突引导、ErbB信号通路、MAPK信号通路,γ-氨基丁酸酸能突触、自噬、AMPK、mTOR信号通路和谷氨酸突触。基于GO-BP通路的富集分析表明,通过RNA-Seq鉴定出目标基因对 5 个 AD 相关中枢 miRNA 的分析富含以下途径:蛋白质磷酸化、神经系统发育、染色质组织和神经元迁移。   
6.来自两个独立数据集的 miRNA 图谱进行共识网络分析
选择共表达模块中的关键 miRNA 来评估独立数据集中 ROS/MAP 数据集中确定的 5 个 AD 相关关键 miRNA 的复制情况。
7.共识网络模块识别
对发现和复制数据集分别执行miRNA共表达网络的构建,并使用平均连锁层次聚类方法中的共识相异性度量来识别共识模块。选择β = 4 的软阈值,并确定了四个共识模块(图4)。所有共识模块在两个数据集中都有对应的模块,表明两个数据集中的共识模块结构相似(图4)。miRNA 组成的共识 CM0 模块未分配给其他模块。
 
图4 共识网络模块的识别
8.共识模块的保存
作者构建了共识 ME 网络来研究模块的表达模式是否彼此相关(图 5A、B)。进一步构建了发现数据集和复制数据集之间共识 ME 对之间相关性的保存网络,以了解两个数据集保存模式的变化(图 5C)。两个网络中所有共识 ME 对之间的保存网络 D 值为 0.88(图 5D),表明这些模块在两个独立的表达模式中得到了很好的保存。    
图5 共识模块特征基因网络的构建
9.跨两个独立数据集识别 AD 相关共识模块以及 AD 相关关键 miRNA 的复制
图 6 显示了模块临床特征热图,表明 AD 与两个独立数据集中的四个共识模块之间的关联。共识 CM2 和 CM3 模块的低 ME 值与 ROS/MAP 数据集中的 AD 显著相关。在 GEO 数据集中,虽然共识的 ME 值之间的关联CM2和CM3模块与AD不显著,效应大小和关联方向与ROS/MAP数据集中一致。在发现数据集 (ROS/MAP) 中确定的 5 个与 AD 相关的中枢 miRNA 中,miR-129-5p、miR-221 和 miR-200a 包含在 CM2 模块中。相关性分析表明,ROS/MAP 数据集中的 M3 模块与 ROS/MAP 和 GEO 组合数据集中的共识 CM2 模块具有很强的相关性。    
图6 共识模块特征基因与 ROS/MAP 队列、GEO (GSE157239) 队列中诊断的关联分析结果以及跨 ROS/MAP 和 GEO 数据集
10.AD 分类的机器学习分析
使用机器学习方法中的惩罚逻辑回归对 NCI 的 AD 进行分类用于评估五种不同的分类模型。10 倍交叉验证的结果如图 7 所示。模型 1(包括年龄、性别和 APOE ε4 携带者状态)的平均 AUC 值为 0.807(图 7A)。通过在模型 1 中添加 5 个 AD 相关关键miRNA 获得的模型 3 的平均 AUC 值显著增加至 0.870(图 7C),与模型 5 相当(图 7E)。仅包括五个与 AD 相关的关键 miRNA的模型 2 的平均 AUC 值为0.740,模型 4(包括所有 309 个 miRNA)AUC 值为 0.815(图 7B、D)。    
图7 使用机器学习方法中惩罚逻辑回归的ROC曲线和平均AUC
文章小结
这篇文章整合网络和机器学习分析识别了miRNA神经病理学标志物miR-129-5p,与AD和认知相关,这一发现增强了对AD发病机制的理解,对AD分类和作为潜在的诊断/预后生物标志物有很大的帮助,但是还需要进一步的研究来验证和阐明其潜在的机制。只用生信分析就能完成一篇8分+的纯数据分析文章,同学们只需要学会“共表达网络+机器学习”的方法,换个疾病寻找它的标志物叭!想复现的抓紧扫码联系馆长吧~~

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!

定制生信分析

服务器租赁

扫码咨询小果

往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!