8+非肿瘤纯生信!机器学习筛选关键基因的文章,生信小白也可复现!

机器学习作为人工智能领域的核心技术之一,在医学科研领域也表现出了巨大的潜力和影响力,无论在肿瘤还是非肿瘤疾病中,都为无实验数据人员发表高分文章,提供了更多可能性!

今天小云跟小伙伴们分享一篇8.7分的机器学习类文章。这篇文章采用了常规的非肿瘤生信分析思路(差异基因+WGCNA+机器学习+外部验证+免疫浸润),这篇文章为什么能发表8分+呢?说实话第一眼看到这篇文章的IF,小云也是大吃一惊,但是定睛一看,这篇文章无论是在分析方法还是选刊方面都是有一定技巧的呢,下面小云就带大家一起揭秘一下吧~

  1. 本研究所用的公共数据库是儿童脓毒症的数据,选投的期刊是由国家儿童健康与疾病临床医学研究中心、国家儿童区域医疗中心、浙江大学医学院附属儿童医院主办的《世界儿科杂志》(World Journal of Pediatrics,WJP)最新影响因子8.7分,此期刊对国人友好,儿科的小伙伴们也可以看下这个期刊哦;
  2. 本文使用了使用两个GEO数据集合并后做后续分析,增加了数据量,丰富了研究内容,同时利用一个GEO外部数据集进行验证增加了研究结果的可靠性;
  3. 本研究首次利用机器学习鉴定儿童脓毒症相关关键基因,结果显示该方法在识别儿童脓毒症患者方面具有优势,能够为患者提供更准确地治疗建议。想要发表高分SCI的小伙伴们也可以借鉴一下本文的研究思路以及选刊策略哦~(ps:不知道怎么创新的小伙伴可以来找小云!这里有热气腾腾的小众生信热点方向,还有一茬接一茬的可复现创新思路,感兴趣小伙伴们的直接扫码联系我噢!)。

  • 题目:生物信息学与机器学习相结合的儿童脓毒症诊断标志物及免疫细胞浸润特征分析与验证
  • 杂志:World J Pediatr
  • 影响因子:IF=8.7
  • 发表时间:2023年4月

研究背景

儿童脓毒症是一种复杂的疾病,其特点是由于儿童对感染的宿主反应失调而导致危及生命的器官衰竭。它与高发病率和高死亡率有关,并强调快速检测和服用抗菌剂。本研究的目的是评价儿童脓毒症的诊断标志物和免疫细胞浸润功能的关系本。

数据来源

数据集 数据库 数据类型 详细信息
GSE26378 GEO RNA-seq数据 72个儿童脓毒症和21个正常对照血液样本
GSE26440 GEO RNA-seq数据 98个儿童脓毒症和32个正常对照血液样本
GSE13904 GEO RNA-seq数据 106个儿童脓毒症和18个正常对照血液样本

研究思路

使用R语言在两个GEO数据集中找到DEGs并进行基因集富集分析。随后,将DEGs与WGCNA选择的关键模块基因取交集得到交集基因,基于交集基因,利用3种机器学习算法鉴定出402个枢纽基因。接着使用ROC曲线和列线图以验证候选枢纽基因(CD177、CYSTM1和MMP8)的识别性能和有效性。此外,通过CIBERSORT算法,使用细胞类型鉴定评估小儿败血症的炎症和免疫状态,进一步研究诊断标志物与浸润免疫细胞之间的关系。

12519_2023_717_Fig1_HTML

主要结果

1. DEGs的鉴定

使用SVA包对数据进行归一化处理并合并数据集,使用Limma包筛选合并后的数据集中的差异表达基因,取交集后获得556个DEGs,包括381个上调基因和175个下调基因,使用“heatmap”绘制热图和“ggplot2”包绘制火山图对结果进行可视化(图1a-b)。

图1 DEGs的鉴定

  1. DEGs的功能富集分析和PPI构建

对小儿败血症患者和健康对照进行GSEA分析,结果显示小儿败血症患者的凝血、补体、IL6-JAK-STAT3信号传导、炎症反应和NF-κB介导的TNFα信号显著富集(图2a);DO分析结果显示,DEGs与肺部疾病、动脉硬化、肝炎、动脉粥样硬化、动脉硬化性心血管疾病、细菌性传染病、原发性细菌性传染病、阻塞性肺病、结核病和支气管疾病有关(图2b);GO富集分析表明,DEGs具有免疫应答调节信号通路、免疫应答活化、细胞因子产生正向调节、白细胞介导免疫、T细胞活化和髓系白细胞活化(图2c);KEGG分析表明,DEGs与造血细胞谱系、金黄色葡萄球菌感染、Th1和Th2细胞分化以及Th17细胞分化有关(图2d)。最后使用STRING数据库进行PPI网络构建(图2e)。(ps:功能富集分析、以及后面的免疫浸润分析也可以用小云新开发的零代码生信分析小工具实现,云生信分析工具平台包含超多零代码分析和绘图小工具,上传数据一键出图,感兴趣的小伙伴欢迎来尝试哟,网址:http://www.biocloudservice.com/home.html)

图2 DEGs的功能富集分析和PPI构建

  1. WGCNA分析

在合并后的数据集中进行WGCNA分析,首先将本聚类,剔除离群样本(图3a),其次选择合适的软阈值功率β,确保无标度网络(图3b,c),然后通过分层聚类分析和基因树状图的动态切割方法,将基因分为12个模块(图3d,e),发现浅青色、蓝色和浅绿色模块与儿童脓毒症显著相关(图3f),最后基于MM > 0.8,GS > 0.2筛选了1582个关键模块基因(图3g-i)。

图3 WGCNA分析

  1. 特征基因的识别

通过维恩图将DEGs和关键模块基因取交集,得到402个交集基因(图2a)。基于交集基因,使用三种机器学习算法来识别特征基因:SVM-RFE(图2b)、随机森林(R包“randomForest”)(图2c, d)、LASSO回归分析(R包“glmnet”)(图2e, f)。

12519_2023_717_Fig2_HTML.webp

图4 特征基因的识别

  1. 关键基因的鉴定与评估

三种算法得到的基因取交集共获得3个关键基因(CYSTM1,MMP8和CD177)(图5a),使用rms软件包开发基于三个关键基因诊断儿童脓毒症的列线图模型(图5b)。根据决策曲线分析(DCA)的结果,列线图模型具有更好的临床预测性能(图5c)。ROC曲线中的AUC分别为0.988、0.973和0.986,表明关键基因具有较高的预测准确性(图5d)。同时在GSE13904验证集中进行表达验证和ROC分析,结果表明儿童脓毒症组CYSTM1、MMP8和CD177的表达明显高于对照组(图5e),ROC曲线的AUC分别为0.968、0.964和0.957,表明关键基因在GSE13904验证集中也是有价值的(图5f)。

12519_2023_717_Fig3_HTML.webp

图5 关键基因的鉴定与评估

  1. 免疫浸润

采用CIBERSORT算法评估疾病样本和对照样本中22种免疫细胞浸润状态,结果显示与对照样本相比,儿童脓毒症样本中单核细胞、M0、M1、M2巨噬细胞、静息肥大细胞、活化肥大细胞、嗜酸性粒细胞和中性粒细胞的比例普遍较高;幼稚B细胞、CD8+T细胞、静息CD4+记忆T细胞、活化CD4+记忆T细胞、Trges、静息NK细胞、活化NK细胞和静息树突状细胞的比例相对较低(图6a-b);使用“ggstatsplot”包分析关键基因与22种免疫细胞的相关性,结果显示CYSTM1,MMP8和CD177与多种免疫细胞显著相关(图7a-c)。

图6 疾病样本和对照样本中22种免疫细胞浸润状态

图7 关键基因与免疫细胞的相关性

文章小结

本研究通过机器学习鉴定关键基因得出结论,CYSTM1、MMP8和CD177是儿童脓毒症的诊断指标。此外,结果还表明,免疫细胞可能在儿童脓毒症的发病和进展中发挥作用。这篇文章可谓是生信小白的福利,仅利用机器学习鉴定关键基因就发表了一篇Top级别8分+的纯生信分析文章。看到别的团队蹭蹭蹭地发文,你是不是也蠢蠢欲动啦?把握住“机器学习”方向,换个疾病,或者加个方向快来复现吧!感兴趣的小伙伴,可以扫码联系小云嗷~~

小云有话说

小云公众号持续为大家带来最新生信思路,想复现这种思路或者定制更多创新性思路欢迎直接call小云,云生信团队竭诚为您的科研助力!