机器学习是一个新兴领域,拥有大量资源来处理大量、复杂和不同的数据。广医第一附院黎毅敏团队通过集成多种机器学习算法识别脓毒症诱导的 ALI 的基因表达特征,可以作为诊断工具。在火火为小伙伴带来的这项研究中,作者系统地回顾了可用的转录组学分析数据集,并通过使用四种不同的监督机器学习特征选择技术的共识,确定了与脓毒症诱导的ALI诊断相关的基因生物标志物。看到这里小伙伴们是不是迫不及待想看看机器学习如何快速发表SCI的思路啦!
1.作者首先使用四种监督机器学习特征选择方法,从患者全血中确定了脓毒症诱导的ALI的五个基因特征。
2.所选特征揭示了肺泡-内皮屏障受损和线粒体代谢功能障碍可能是脓毒症相关ALI发生的关键机制的疾病机制。
3.最后,诊断基因可能是未来推定的药物靶点,药物对诊断基因的存在进行了筛选,从而为靶向治疗带来了新的视野。(ps:生信分析作为发文利器,只要选好切入点,即使0实验的研究思路依旧可以发高分SCI!有兴趣的小伙伴快来关注生信火吧!)
l题目:使用共识机器学习方法的脓毒症诱导急性肺损伤诊断模型及其治疗意义
l杂志:Journal of Translational Medicine
由于缺乏有效的诊断测试,部分急性肺损伤(ALI)脓毒症患者被发现较晚,导致治疗推迟,从而导致死亡率增加。识别诊断性生物标志物可以改善筛查,以更早地识别 ALI 高风险的脓毒症患者,并提供潜在的有效治疗药物。机器学习是一种强大的方法,可以理解复杂的基因表达数据,作者以此找到强大的ALI诊断生物标志物。
数据来源
|
|
|
|
|
|
|
|
|
ArrayExpress
|
|
13名 ALI、脓毒症患者和 21名单纯脓毒症患者样本
|
|
|
|
|
研究思路
作者应用4种机器学习特征选择方法(弹性网络、SVM、随机森林和XGBoost)构建诊断模型分析数据集。为进一步评价诊断模型的性能和预测价值,作者构建了列线图、决策曲线分析(DCA)和临床影响曲线(CIC)。最后,从CTD数据库中探索了与所选特征相互作用的潜在小分子化合物。
为了破译脓毒症诱导的ALI的可能生物学机制,作者对MSigDB资源中的 21,338 个基因集进行了GSEA。基于GO分析,作者发现脓毒症诱导的ALI可能是由炎症宿主对微生物病原体的反应引发的。脓毒症诱导的ALI期间肺泡上皮细胞和内皮细胞的变化包括细胞间连接形成、细胞表面糖萼和细胞创伤或死亡的改变。宿主对感染的异常反应导致肺泡-毛细血管屏障的破坏,导致肺损伤的发展。
在这项研究中,作者分析了77名没有ALI的脓毒症患者和57名有ALI的脓毒症患者的DEG。作者采用弹性网、svm、随机森林和XGBoost等4种不同的机器学习方法,筛选DEGs并构建诊断模型。每种方法选择的每个特征亚群都不同,并且总共有5个基因重叠。基于特征重要性,弹性网选择27个基因,svm选择29个基因,随机森林选择20个基因,XGBoost选择33个基因。进一步利用所有方法筛选出的基因(ARHGDIB、ALDH1A1、TREM1、TACR3和PI3)构建诊断模型。
为了比较每种特征选择方法的性能,作者评估了多个模型在验证集上作为分类器的表现。svm 模型的AUC和准确度最高,随机森林模型的AUC(0.727)和准确度最差。作者使用多个模型选择的DEGs进行了集成学习算法,集成模型的AUC(0.876)高于svm模型, XGBoost模型选择的基因最多,随机森林模型选择的基因最少。这些结果证实了由基因(ARHGDIB、ALDH1A1、TREM1、TACR3和PI3)构建的诊断模型具有较好的诊断效率。
4.使用外部数据集验证脓毒症诱导的 ALI 的诊断
为了评估诊断模型的预测性能,考虑从ArrayExpress数据库获得的两个数据集(E-MTAB-5273和E-MTAB-5274)作为外部验证。利用4种监督机器学习算法选择的重叠基因进行ROC分析。结果表明,E-MTAB-5273的AUC为0.725,外部验证结果表明,由5个基因构建的诊断模型在脓毒症诱导的ALI中具有优异的性能。
对于诊断模型的可视化,风险列线图集成了脓毒症诱导的 ALI 发生率的 5 个独立预测因子。脓毒症诱发的ALI发生率的校准曲线表明,实际发生率与列线图预测的发生率高度重叠。作者对诊断基因的决策曲线分析(DCA)和整合诊断基因的模型的决策曲线分析(DCA)。基于DCA的结果,作者进一步绘制了CIC图,以评估列线图的临床效用。CIC结果显示,列线图在广泛而实用的阈值概率范围内具有优越的整体净收益,并影响了诊断,表明诊断模型具有优异的预测价值。
作者为了解ALI特异性诊断标志物的生物学作用,探索了5个诊断基因的功能改变。首先,对于ARHGDIB,它在脓毒症诱导的ALI中显著下调。ALDH1A1在脓毒症诱导的ALI中以低水平表达。研究发现,上调的ALDH1A1可能参与氧化应激相关途径的负调控。地塞米松作为抗炎和免疫抑制剂已被广泛用于治疗多种疾病,包括急性呼吸窘迫综合征和败血症。在分子对接的结果中,地塞米松可以与ALDH1A1紧密结合,这将导致ALDH1A1的基因表达降低。
图8 诊断基因编码蛋白质与小分子化合物的对接结果
文章小结
总的来说,这篇研究的新颖之处在于集成了多种机器学习算法,构建了区分脓毒症患者是否患有ALI的共识模型。作者首先使用相关矩阵来消除多重共线性,并执行了多种监督机器学习方法来构建诊断模型。然后,作者进一步使用外部数据集来验证诊断模型的准确性。进一步探讨基因功能和靶向药物也是本研究的新颖之处。想要深入学习一下机器学习算法吗?小伙伴们看到这么环环相扣的生信分析是不是也很想上手试一下!心动不如行动,快来找火火了解更多机器学习干货!
火火有话说
想要复现思路的小伙伴们快快来联系火火吧!低成本的作业快抄起来!火火持续为你的科研助力哦!
原文始发于微信公众号(云生信学生物信息学):毕业神刊再再再上分!广州医科大学一附院:7.4分+0实验+快速发文!思路巨简单!小白也能轻松学会!