被夸爆的机器学习在此!川大华西医李艳团队教你机器学习如何破圈:搭上多组学轻取7+纯生信,“救命稻草”可以一学!

小伙伴们都知道机器学习愈来愈成为生物医学领域的宠儿,根据相关统计在2023年发文量就已达到33542篇,但这也意味在这个领域是越来越内卷,那我们该如何破圈呢!不急不急,今天小云带来的这篇文章就给各位一个破圈的好思路,那就是咱们可以联合多组学呀。在一堆多组学数据,通过算法找出关键预后信息进而构建模型,为临床提供参考,你说审稿人会不会眼前一亮吧!

该研究者以肝细胞癌(LIHC)患者作为研究对象,旨在探索与炎症密切相关的预后特征,并利用生物信息学技术和LIHC基因表达大数据,构建更精确的预后模型,进而为LIHC患者治疗提供新的参考。

  1. 本研究结合了多个权威数据库,保证的充分的样本信息,也更直观明确的探索出与炎症密切相关的预后特征;
  2. 二是作者经采用单变量Cox回归分析、LASSO回归、10倍交叉验证及多变量Cox回归模型等机器学习方法对预后特征进行进一步的训练和检验,最后构建相关模型;
  3. 最后,作者分析了预后风险与免疫浸润、肿瘤微环境、免疫细胞和免疫治疗之间的相关性和差异。对机器学习感兴趣并且想要发表高分SCI的小伙伴们也可以借鉴一下本文的研究思路哦~(ps:机器学习再联合癌症研究无疑是发文利器,但常规套路想要发个好文章可谓痴人说梦,那对机器学习感兴趣但不知道怎么创新的小伙伴可以来找小云哦!这里有高分易复现的创新思路,小伙伴们赶紧来公众号后台找我噢!)

  • 题目:基于机器学习的肝癌预后模型的精细治疗方案
  • 杂志:Computers in Biology and Medicine
  • 影响因子:IF=7.7
  • 发表时间:2024年1月

研究背景

肝细胞癌(LIHC)是危害最大的肿瘤之一,在未来几年内,每年的病例数将突破100万例,因此,改善进展和预后不仅是一个现实的问题,也是一个势在必行的问题。越来越多的证据表明,与传统的化疗或放疗相比,靶向治疗是治疗癌症的有效策略,寻找合理的靶点有助于药物的开发和临床的药物选择与组合。炎症是一种重要的生理和免疫反应,相关学者报道肿瘤的发展与炎症过程之间存在着复杂的串扰,一方面促炎因子和细胞因子能够增强机体的抗肿瘤作用,但另一方面阻断炎症信号通路反而可以提高癌症治疗效果。因此,在这项研究中,作者旨在探索与炎症密切相关的预后特征,并利用生物信息学技术和LIHC基因表达大数据,构建更精确的预后模型,进而为LIHC患者治疗提供新的参考。

数据来源

数据库 详细信息
TCGA、GTEx、HPA及GEO数据库 LIHC的RNA测序表达谱、IHC及单细胞数据

研究思路

首先,作者从TCGA和GTEx数据门户网站下载LIHC的RNA测序表达谱、突变数据和相应的临床信息,而LIHC的免疫组化(IHC)染色图像来自Human Protein Atlas(HPA)Visualization数据库,单细胞转录组分析来自GEO数据库中的GSE156337。作者先是观察了肿瘤与邻近正常组织中10个关键炎症相关基因的基因表达水平并统计了其拷贝数变异(CNV)的频率及其在染色体上的位置。为了研究上述炎症相关基因是否与LIHC的预后相关,作者根据这些基因的表达水平和通过内部一致性和聚类效应分析,将LIHC病例分成两个主要聚类,分别进行了生存分析、基因集变异分析及基因集富集分析显示。接着,作者将除正常组外的LIHC按1:1的比例随机分为训练集和验证集,对训练集进行单变量Cox回归分析,筛选与预后特征因素相关的信息,将其应用于LASSO回归并进行10倍交叉验证;在多变量Cox回归模型对预后特征进行进一步的训练和检验,最后筛选3个基因和2个lncRNAs进行预后风险评估,在此基础上,作者构建了预后风险评估模型即Inf-PR模型。随后作者分析了预后风险与免疫浸润、肿瘤微环境、免疫细胞和免疫治疗之间的相关性和差异。

主要结果

一.LIHC中炎症相关基因的特征

首先,作者从TCGA和GTEx数据门户网站下载LIHC的RNA测序表达谱、突变数据和相应的临床信息,而LIHC的免疫组化(IHC)染色图像来自Human Protein Atlas(HPA)Visualization数据库,单细胞转录组分析来自GEO数据库中的GSE156337。作者观察了肿瘤与邻近正常组织中10个关键炎症相关基因的基因表达水平,对比分析发现其中8个基因的表达水平有显著差异(图1A),其中,EIF2AK2、GSDMD、IL18、CASP1、PYCARD、NLRP3和NLRC4在肿瘤组织中的表达水平显著高于正常组织,而NLRP1的表达水平则显著低于正常组织;同时,作者从HPA数据库中进行免疫组化分析(图1B)和单细胞测序分析(图1C和D),同样证实了上述8个基因的表达水平在肿瘤组织和正常组织中存在差异,但在两组中上述基因均没有明显的遗传改变富集区,翻译后修饰的类型和位点主要为磷酸化修饰(图2A)。NLRP3具有最高的肿瘤突变负荷发生率(TMB),其错义突变的频率约为2%(图2B);此外,作者统计了拷贝数变异(CNV)的频率及其在染色体上的位置,结果显示10个基因均保持一定的CNV频率,其中6个基因出现扩增,另外4个基因出现缺失(图2C)。

第3页-3

图1 LIHC中炎症相关基因分析

第4页-5

图1 LIHC中相关基因的突变状态及翻译后修饰

二.亚群聚类分析

为了研究上述炎症相关基因是否与LIHC的预后相关,作者根据这些基因的表达水平和通过内部一致性和聚类效应分析,将LIHC病例分成两个主要聚类(图3A)。生存分析显示,炎症本身与疾病的预后没有直接关系(图3B);接着,作者对两个簇之间的KEGG通路进行了基因集变异分析。结果显示,A集群主要富集于代谢途径如缬氨酸、亮氨酸和异亮氨酸的降解;而B集群主要激活疾病相关途径(图3C);基因集富集分析显示,免疫细胞的丰度如活化CD4+ T细胞、活化CD8+ T细胞、活化树突状细胞和CD56dim NK细胞在集群B中比在集群A中具有统计学意义,但嗜酸性粒细胞相反(图3D)。综上所述,炎症并不能直接反映LIHC的预后,但它与信号通路的变异和免疫状态明显相关。

第4页-4

图3 亚群聚类分析

三.基于差分聚类的预测模型构建

接着,作者将除正常组外的LIHC按1:1的比例随机分为训练集和验证集,对训练集进行单变量Cox回归分析,筛选与预后特征因素相关的信息,将其应用于LASSO回归并进行10倍交叉验证。结果表明,当LASSO模型中基因数为9时,比例风险模型曲线偏差最小(图4A);在多变量Cox回归模型对预后特征进行进一步的训练和检验,最后筛选3个基因(SOCS2、SRXN1和TMEM25)和2个lncRNAs(AC015908.3和AC009403.1)进行预后风险评估,并根据风险评分将整个数据集中的患者分为高危组和低危组。其中生存曲线在高危组和低危组之间有显著差异,其中低风险评分的患者获得了更长的生存时间。在此基础上,作者构建了预后风险评估模型即Inf-PR模型。根据Inf-PR产生的大样本得分的中位数,阈值设为0.995,分数超过阈值即判定为高风险。为了评价模型的性能,作者将模型与传统临床指标进行对比分析,ROC结果显示上述预后模型(AUC=0.832)高于传统的临床指标,尤其优于进展期指标(AUC=0.667);此外,Inf-PR模型的AUC值明显高于先前报道的4个模型(图4D)。

第5页-6

图4 基于差分聚类的预测模型构建

四.预后风险背后的免疫特性

为了揭示预后模型的潜在免疫景观特征,作者分析了预后风险与免疫浸润、肿瘤微环境、免疫细胞和免疫治疗之间的相关性和差异。CIBERSORT分析显示,预后风险与巨噬细胞M0 和中性粒细胞的丰度呈正相关,而与嗜酸性粒细胞、单核细胞、活化NK细胞和静息记忆CD4 T细胞的丰度呈负相关(图5A);采用ESTIMATE算法对高、低危患者的肿瘤微环境(TMEs)进行评价,其中StromalScore差异有统计学意义(图5B);此外,免疫功能热图显示,细胞免疫功能,包括免疫检查点、细胞溶解活性和APC共刺激等在低风险和高风险之间存在统计学差异(图5C);应用TIDE算法分析LIHC免疫治疗的获益,其结果显示,免疫治疗对高危患者的效果明显优于对低危患者(图5D);除了针对PD-1的抗体外,免疫检查点的变异分析还显示了一组针对高危人群的潜在治疗靶点(图5E)。以上结果证实该模型是评估LIHC患者预后风险和选择合理免疫治疗的有用工具。

第6页-7

图5 预后风险背后的免疫特性

五.根据LIHC的预后模型选择治疗药物

为了研究LIHC不同风险组的敏感药物,作者检测了6177个高低风险组差异表达基因(DEG),并通过加权基因共表达网络分析将其分为10个模块,其中灰色模块与预后风险和人类疾病具有明显的正相关性(图6A-B);结合GDSC和CTRP的数据集,利用脊回归模型计算对灰色模块中这些基因的药物敏感性。结果显示,包括洛伐他汀和索拉非尼在内的10种FDA批准的小分子药物对高危人群的105个基因具有更高的敏感性和微扰性;同时它显示了其他15种药物,包括阿霉素和乐伐替尼对低风险组的687个基因有更好的敏感性和扰动性(图6C-D)。此外,作者注意到大多数信号通路在高危组和低危组之间是相同的,但药物的敏感基因是不同的。因此,根据预后风险对患者进行药物选择是必要的。

第7页-8

图6 根据LIHC的预后模型选择治疗药物

文章小结

文章作者以LIHC患者作为研究对象,通过整合多组学和采用机器学习方法构建了LIHC炎症相关预后模型,为进一步给LIHC患者提供精细化治疗提供了可靠的理论依据。文章架构完整,多组学再加多算法,并且最后还进行了药物敏感性分析,绝对让审稿人青睐。小伙伴们对机器学习感兴趣的话,这篇文章无疑是一个很好的借鉴,宝子们可要好好抓住这样的机会哦。有进一步需要的小伙伴也可以扫码来找小云哟,我们能在生信分析和方案设计提供更完善的角度。