上海第十人民医院团队:10种机器学习算法101种组合,10余组公共数据,结合单细胞数据,体内外实验带你冲击10分+!!






上海第十人民医院团队:10种机器学习算法101种组合,10余组公共数据,结合单细胞数据,体内外实验带你冲击10分+!!

馆长  生信果  2024-03-29 19:00:18

有小伙伴来找馆长,以分析普通转录组数据为主怎么能投高分杂志?馆长首先想到的那一定是机器学习了!!但光这点肯定不够,数据量上也要想想办法哦~~那话不多说赶紧跟着馆长来看看今天的文章吧!!

今天馆长选的文章集成了10种经典的机器学习算法,等到101种机器学习算法组合,建立人工智能衍生预后指数,并对模型进行验证评估。基于多种临床特征,验证了该模型能够作为独立预后指标。又通过富集分析识别了相关患者的失调通路。利用单细胞数据确定了特定患者的治疗靶点。然后以角鲨烯环氧化物酶为重点,探索其在骨肉瘤中的作用。最后通过体内外实验鉴定角鲨烯环氧化物酶对治疗骨肉瘤的贡献。文章整合了十余组公共数据,使用10种机器学习算法构建模型,又结合了单细胞数据筛选靶点,采用了多种分析方法,思路清晰,还有体内外实验鉴定,这发到1区10分,确实实至名归!!还在寻找肿瘤发文好思路的朋友们赶紧收藏起来吧,SCI等着你!(ps:想要了解最新的生信思路,来找馆长就对了,这里有不仅有热点方向还有创新思路,想思路复现可以直接扫码call馆长,等你哦!)


● 题目:利用人工智能衍生预后指数确定角鲨烯环氧化物酶是高危骨肉瘤中的代谢漏洞
● 杂志:Clinical and Translational Medicine
● 影响因子:IF=10.6
● 发表时间:2024年2月


研究背景

骨肉瘤(OSA)是一项临床挑战,其5年生存率很低。目前,由于缺乏先进的分层模型,很难进行个性化治疗。本研究旨在确定新型生物标志物,对高危骨肉瘤患者进行分层并指导治疗。

数据来源

数据集/队列
数据库
数据类型
详细信息
TARGET-OSA
GDC
多组学数据
Bulk RNA-seq数据、基因水平拷贝数变异、屏蔽体细胞突变图谱、屏蔽DNA甲基组强度,以及来自 “产生有效治疗的治疗学应用研究(TARGET)”计划的相关临床数据(n=85)
GSE21257
GEO
微阵列数据
5 年内发生转移的骨肉瘤患者的化疗前活检 (n=34) 与 5 年内未发生转移的骨肉瘤患者的化疗前活检样本(n=19)
GSE33382
GEO
微阵列数据
84 例治疗前高级别骨肉瘤诊断活检样本        
GSE16091
GEO
微阵列数据
34例人类肉骨瘤样本
GSE14827
GEO
微阵列数据
27 个骨肉瘤手术样本
GSE87437
GEO
微阵列数据
   位于四肢的 21 例高级别骨肉瘤
GSE42352
GEO
微阵列数据
3 个成骨细胞、12 个间充质干细胞和 19 个 OSA 细胞系
GSE16089
GEO
微阵列数据
耐 MTX 的 Saos2 及其母本细胞系,分别有 3 个重复序列
GSE9967
GEO
微阵列数据
18 名患者的 OSA 样本和配对正常骨组织
GSE238110
GEO
RNA-seq数据
186 例犬骨肉瘤原发性肿瘤样本
PRJNA681896
GDC
scRNA-seq数据
6个OSA活检样本
PRJNA698672
GDC
RNA-seq数据
OSA组织和来自四名患者的配对相邻正常组织

研究思路

将 10 种机器学习算法组合成 101 种组合,并根据 254 个样本的转录组图谱建立了预测总生存期的最佳模型。评估了转录组、基因组和表观基因组图谱的变化,以阐明不良预后的驱动机制。单细胞RNA测序揭示了OSA细胞中作为潜在治疗靶点过度表达的基因,其中一个基因通过组织染色、基因敲除和药理抑制得到了验证。描述了多种表型的变化,包括增殖、集落形成、迁移、侵袭、凋亡、化学敏感性和体内致瘤性。RNA-seq和Western印迹阐明了角鲨烯环氧化物酶(SQLE)抑制对信号通路的影响。

主要结果

1. 人工智能衍生预后指数(AIDPI)的开发与验证
将 GSE21257和 GSE16091 两个队列合并为 GEO-OSA 队列,将该队列作为训练集。同时,TARGET-OSA 作为验证集。发现训练集和验证集共有 18 个 预后基因 (CPG)。将这些 CPG 输入机器学习框架,在训练集中生成多个预后模型。在对训练集、验证集和独立测试集(GSE33382)进行评估后,CoxBoost 和度提升机 (GBM)组合建立的模型被选为最佳模型,因为它的平均 C 指数是最高的(图 1A)。该模型由 12 个基因组成。利用该模型,计算了多个队列中每位患者的 AIDPI。tROC分析显示,训练集、验证集和独立测试集中1年、3年和5年OS的ROC-AUC见图1B-D。根据训练集确定的 AIDPI 最佳阈值,OSA 患者被分为低 AIDPI 组和高 AIDPI 组。在训练集、验证集和独立测试集(图 1E-G)中,KMSA 发现高 AIDPI 组的结果明显不利。这一趋势在其他队列(图 1H-M)中也得到了一致的观察,包括合并的meta OSA 队列(图 1J,M)。
   
在上述六个队列中进一步评估了 AIDPI 和 68 个以前发表的 OSA 特征的预测能力。然而,由于微阵列数据集中基因命名的改变和基因缺失,只有 53 个已发表的特征和 AIDPI 在至少一个队列中进行了测试,结果以热图的形式显示出来(图 1N)。该热图显示,在所有队列中只有两个特征一致地显示出统计学意义:AIDPI 和 之前Xu 等人的特征。直接的 C 指数比较强调了 AIDPI 在三个队列中明显优于 Xu 等人的特征(图 1O)。这些研究结果表明,AIDPI 可以预测 OSA 患者的预后,并且优于之前建立的特征。  
图1 AIDPI的开发与验证

2. 基于 AIDPI 和临床特征的生存预测增强功能
鉴于多个临床变量对 OSA 患者预后的影响已得到公认,接着试图阐明这些因素与 AIDPI 之间的关系,以确认 AIDPI 是独立的预后生物标记物,并建立一个综合模型来增强生存预测。Meta OSA中的单变量Cox回归分析显示,患者的OS与AIDPI、年龄、MSTS分期、Huvos分级和原发肿瘤部位等参数之间存在显著关联(图2A)。在TARGET-OSA队列中,有43名患者的Huvos分级可用,且高AIDPI评分对应于Huvos分级I/II(图2B)。当评估其对化疗反应的预测能力时,AIDPI 的 AUC 为 0.713(图 2C)。这一预测特性在扩大的 OSA-Huvos 数据集中再次得到了证实,该数据集由五个数据集中含有 Huvos 分级信息的样本组成,其中 Huvos 分级 I/II 再次与 AIDPI 得分升高相对应(图 2D),AIDPI 在预测新辅助化疗反应方面的 AUC 为 0.756(图 2E)。
   
对meta-OSA队列进行的多变量Cox回归分析发现,AIDPI、MSTS分期、Huvos分级和原发肿瘤部位是独立的预后因素(图2F)。鉴于Huvos分级的缺失值超过25%,而AIDPI在预测新辅助化疗反应方面具有很高的准确性,因此Huvos分级被排除在多变量Cox回归分析之外(图2G)。根据修订后的模型,构建了预测患者生存概率的列线图(图 2H)。校准曲线(图 2I)和 tROC 评估(图 2J)证实了该列线图的强大预测能力。此外,根据 AUC 分析,该列线图的性能超过了其他因素(图 2K),DCA 显示其净获益比其他临床参数更广泛(图 2L)。

这些发现突出表明 AIDPI 是一个独立的预后指标。此外,基于AIDPI、年龄、MSTS分期和原发肿瘤部位的列线图已成为预测OSA患者预后的工具,其效果优于孤立的临床病理特征。   
图2 基于AIDPI和临床特征的生存预测

3. 识别高 AIDPI 患者中失调的通路
从 TARGET-OSA 数据集得出的热图显示了 AIDPI、免疫评分和用于计算 AIDPI 的 12 个基因(AIDPI 基因)的表达模式。在高 AIDPI 组中,7 个 AIDPI 基因表现出明显的上调,其中 5 个与免疫评分成反比。另一方面,5 个 AIDPI 基因表现出明显的下调,其中 3 个与免疫评分呈正相关(图 3A)。GSEA 确定了高 AIDPI 组中增强的基因集,包括 MYC 靶点 V2、MYC 靶点 V1、胆固醇稳态和 mTORC1 信号传导。相比之下,有关细胞凋亡和特异性免疫反应的基因集则呈负富集(图 3B)。对 DEGs 的 KEGG 富集分析突显了对 OSA 进展至关重要的通路(图 3C),包括 PI3K-Akt 信号传导、细胞因子-细胞因子受体相互作用、破骨细胞分化、病灶粘附和细胞外基质(ECM)-受体相互作用。
   
进一步探索的目的是通过深入研究基因组和表观基因组数据,找出转录组失调的根源。AIDPI 基因缺乏体细胞突变。虽然甲基组分析并未发现两组 AIDPI 之间平均甲基化水平的显著变化(图 3E),但基于表观基因组数据50 通过经验贝叶斯 GSEA 富集的 KEGG 通路显示,病灶粘附方面的失调最为显著(图 3F),这与转录组的研究结果(图 3C)如出一辙。这些发现表明,转录组水平的异常通路可能源于高 AIDPI 群组中 DNA 拷贝数变异和 DNA 甲基化改变。

此外,转录组分析还突出显示了造血细胞系的富集(图 3C),暗示了免疫细胞浸润的改变。这些发现表明,高AIDPI组的不良预后可能源于OSA中DNA拷贝数、DNA甲基化和免疫细胞浸润模式改变所引发的通路改变。   
图3 识别高AIDPI患者的失调通路

4. 确定高 AIDPI 患者的治疗靶点
为了bulk RNA-seq数据中确定低AIDPI组和高AIDPI组之间哪种细胞类型表达了DEGs,并确定OSA细胞的特异性治疗靶点,评估了六个OSA活检样本的scRNA-seq数据集。利用 scGate 软件包鉴定了 OSA 组织中的各种细胞类型。分离出 CD45 阳性细胞,并将其中 1000 个作为鉴定 OSA 细胞的参考细胞。相反,CD45 阴性的细胞被认为是潜在的 OSA 候选细胞。使用 infercna 软件包,根据每个染色体区域 150 个基因的平均表达推断出拷贝数改变(CNA)。在预测的 OSA 细胞中观察到了不同的染色体扩增和缺失(图 4A)。为了完善细胞注释,我们评估了选定标记物的 mRNA 表达水平:scGate 软件包促进了免疫细胞的自动注释,最终可注释出九个主要细胞群(图 4B)。随后,通过气泡图(图 4C)展示了定义每个群组的标记基因及其表达模式。所有划分的细胞类型都出现在六份活检样本中。
   
根据scRNA-seq数据集的DEA结果,绘制了每个细胞集群的阳性表达基因(PEGs)图(图4D),显示CPE、IBSP和CTHRC1是OSA细胞中高表达的前三个基因。通过比较低AIDPI组和高AIDPI组的DEG与各细胞群的PEG,发现只有8%的DEG在OSA细胞中主要表达(图4E)。12个 AIDPI 基因与 DEGs 和 PEGs 的交集突出显示了三个共同的基因(图 4F),随后通过特征图显示了它们的表达模式(图 4G)。根据 canSAR 数据库,只有 MYC 和 SQLE 编码的蛋白具有可药用的结构,并成为高 AIDPI 患者的潜在靶点。   
图4 确定高AIDPI患者的治疗目标

5. OSA 中 SQLE 的过表达与肿瘤进展相关
MYC 表达的升高与 OSA 的不良预后有关。与正常邻近组织和假定的祖细胞相比,观察到 SQLE 在 OSA 组织和细胞模型中的表达明显增加(图 5A,B)。Huvos I/II级的OSA标本(表明对新辅助化疗反应不佳)表现出SQLE表达的升高,与母本细胞系相比,在MTX耐药的Saos2细胞(Saos2/MTX)中也观察到了同样的趋势(图5C)。这些发现强调了SQLE在OSA的起始和化疗耐药性中的潜在意义。
   
进一步研究了SQLE在OSA中过表达的潜在分子机制。在 OSA 组织和细胞系中,我们观察到 SQLE 基因水平拷贝数与其 mRNA 表达水平之间存在显著的正相关性(图 5D,E)。在 OSA 中经常扩增的癌基因 MYC55,其基因组位置与 SQLE 相近。它们的基因拷贝数(图 5F、G)和 mRNA 表达水平(图 5H)之间的强相关性表明,SQLE 和 MYC 同时扩增可能导致它们在 OSA 中的 mRNA 水平升高。

SQLE 表达的升高还与人类或犬类 OSA 患者的不良预后有关,多个队列的 KMSA 证实了这一点,显示在多个人类和犬类 OSA 队列中,高 SQLE 组患者的 OS 或无事件生存率明显较低(图 5I-P)。此外,使用 TMA 检测了 77 例人类 OSA 组织中的 SQLE 蛋白丰度,并展示了 SQLE 蛋白低表达和高表达的代表性染色图像(图 5Q),结果证实 SQLE 蛋白高表达与 KMSA 下 OSA 患者的不良生存率相关(图 5R)。Meta OSA 的多变量 Cox 回归分析表明,即使调整了年龄、MSTS 分期和原发肿瘤部位等临床因素,SQLE mRNA 表达和 MYC mRNA 表达也是 OSA 患者死亡风险的独立指标(图 5S)。这些结果表明,由于SQLE与MYC在DNA水平上共同扩增,SQLE在OSA中的过度表达可通过促进OSA细胞的化疗耐受性和抑制抗OSA免疫细胞的浸润来促进OSA的进展。   
图5 OSA中SQLE的过表达与肿瘤的进展有关

6. 体外和体内敲除SQLE阻碍OSA的发生
为了揭示SQLE在OSA中的作用,构建了四种shRNA,并选择了最佳的一种,在内源性SQLE蛋白高表达的MNNG和U2OS细胞(图6A)中沉默SQLE。敲除 SQLE 抑制了这些细胞的恶性表型,包括增殖(图 6B)、集落形成(图 6C)、迁移(图 6D)和侵袭(图 6E)。此外,SQLE 基因敲除可促进细胞凋亡(图 6F,G),并提高对由大剂量甲氨蝶呤 (MTX)、阿霉素 (ADM) 和顺铂 (DDP) 组成的 MAP 方案中药物的敏感性,shSQLE 组 IC50 值的降低证明了这一点(图 6H-J)。在异种移植模型中,发现沉默 SQLE 可抑制肿瘤生长,降低肿瘤重量和胆固醇水平(图 6K-M)。IHC 分析证实,沉默 SQLE 后,SQLE 蛋白丰度降低,Ki-67 阳性细胞减少(图 6N、O)。这些结果表明,靶向 SQLE 蛋白可能是抑制 OSA 的一种合理方法。   
图6 SQLE敲除阻碍了OSA在体外和体内的进展

7. 沉默SQLE可通过降低胆固醇和抑制FAK/PI3K/Akt/mTOR通路来抑制 OSA    
在发现 SQLE 沉默对 OSA 的不利影响后,将重点转移到揭示其潜在的分子机制上。对稳定表达 shSQLE 或 shControl 的 U2OS 细胞进行了 RNA 序列分析。GSEA显示,SQLE沉默后胆固醇稳态基因组明显下调(图7A),这与发现的SQLE敲除后MNNG和U2OS细胞中细胞内胆固醇减少的结果一致(图7B)。在对 DEGs 进行 KEGG 富集后,PI3K-Akt 信号通路被显著富集,显示出最高的基因比例(图 7C)。利用富集图将富集的术语整合到一个网络中,表明 PI3K-Akt 信号通路、病灶粘附和 ECM-受体相互作用之间存在联系。事实上,这些通路在 WikiPathways 数据库中被合并成一个更广泛的基因集,即局灶粘附-PI3K-Akt-mTOR 通路(WP3932),在 U2OS 细胞中沉默 SQLE 后,该通路也同样被下调(图 7D)。SQLE mRNA水平与三种PI3K/mTOR通路拮抗剂的AAC值有很强的相关性(图7E),强调了SQLE mRNA与OSA细胞系中该通路激活之间可能存在的联系。

考虑到 SQLE 蛋白在胆固醇合成中的作用以及胆固醇通过脂质筏在细胞信号调节中的关键作用,推测沉默 SQLE 会降低细胞内胆固醇水平,进而使 FAK/PI3K/Akt/mTOR 信号通路失活,最终抑制 OSA 的发展。与这一假设相一致的是,在 MNNG 和 U2OS 细胞中沉默 SQLE 会导致关键蛋白的磷酸化减少,包括局灶粘附激酶(FAK)、PI3K、Akt 和 mTOR。然而,补充胆固醇可恢复这些磷酸化模式(图 7F、G),并抵消 SQLE 敲除对这些 OSA 细胞恶性表型的抑制作用(图 7H-K)。这些发现表明,沉默SQLE可通过降低胆固醇水平并随后抑制FAK/PI3K/Akt/mTOR通路来抑制OSA。   
图7 SQLE沉默可通过降低胆固醇和抑制FAK/PI3K/Akt/mTOR通路来抑制OSA

8. 药物抑制 SQLE 可抑制 OSA 进展并提高化疗疗效
真菌 SQLE 抑制剂(如萘替芬和特比萘芬)已在多种癌系中显示出抗肿瘤作用,但在类似浓度下对健康成纤维细胞没有影响。MNNG 和 U2OS 细胞对 FR194738 的敏感性明显增强,IC50 值明显低于萘替芬和特比萘芬。
   
FR194738 对 U2OS 和 MNNG 细胞的增殖和集落形成都有剂量依赖性抑制作用(图 8A,B)。FR194738 能抑制肿瘤生长和胆固醇含量,但不会导致受试者体重减轻(图 8C-F)。解剖肿瘤重量比较显示,TGI 率为 59.67%(图 8E)。此外,Ki-67 和裂解的 caspase-3 的 IHC 分析证实,服用 FR194738 后,OSA 异种移植物的细胞增殖减少,凋亡增加(图 8G、H),这突显了 SQLE 药理抑制对 OSA 的治疗潜力。

观察到 SQLE 沉默会使 FAK/PI3K/Akt/mTOR 信号通路失活,而 FAK/PI3K/Akt/mTOR 信号通路被抑制后会增加 OSA 细胞对MTX、ADM和DDP的敏感性,因此假设 FR194738 与这些一线化疗药物在 OSA 中具有协同作用。因此,使用 MNNG(图 8I)和 U2OS评估了细胞对各种药物组合的反应。大多数协同作用得分都表明存在强大的协同作用(图 8J,K)。除了协同作用得分,还使用组合敏感性得分(CSS)来评估药物组合的疗效。FR194738 和 DDP 的组合是最佳组合(图 8L,M)。这些研究结果表明,通过 FR194738 的 SQLE 靶向作用,化疗(尤其是 DDP)可提高 OSA 患者的疗效。根据研究结果,认为 AIDPI 具有对 OSA 患者进行分层的临床潜力。虽然传统疗法足以满足低 AIDPI 患者的需求,但高 AIDPI 患者可能会从结合传统疗法和 SQLE 抑制剂(如 FR194738)的综合疗法中获益(图 8N)。   
图8 SQLE抑制剂可抑制OSA的进展并提高化疗疗效

文章小结

该研究证明了AIDPI 是识别 OSA 患者高风险亚群的可靠生物标志物。SQLE 蛋白是这些患者的代谢弱点,为其提供了一个具有转化潜力的靶点。由作者的模型生成的AIDPI是一个独立的预后生物标志物,优于临床病理因素和之前发表的特征。将 AIDPI 与临床因素结合到提名图中可提高预测准确性。为方便用户,模型和列线图均可在线访问。高AIDPI组患者表现出化疗抵抗,同时伴有MYC和SQLE的过度表达、mTORC1信号增强、PI3K-Akt信号中断以及免疫浸润减弱。ScRNA-seq发现OSA细胞中MYC和SQLE的高表达。SQLE表达的升高与OSA患者的化疗耐药性和较差的预后相关。在治疗上,沉默SQLE可抑制OSA恶性肿瘤并增强化疗敏感性,这是由胆固醇消耗和抑制FAK/PI3K/Akt/mTOR通路介导的。此外,SQLE特异性抑制剂FR194738在体内显示出抗OSA作用,并与化疗药物产生协同效应。文章整合了多组公共数据集,又融入了自有测序队列,以普通转录组分析为主,利用10种机器学习算法101种组合构建预测模型,逻辑严谨可靠,又有实验鉴定拿下1区10分不得不佩服!!(ps:发文还缺好思路的同学们,欢迎来找馆长,超多新颖的分析思路供你选择哦!)


      

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果


往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!