环境方向大有可为!NHANES+机器学习,厦门大学团队这篇文章思路简单,极易复现!快来学学!






环境方向大有可为!NHANES+机器学习,厦门大学团队这篇文章思路简单,极易复现!快来学学!

小果  生信果  2024-05-30 19:00:59

NHANES数据库可谓是非肿瘤研究领域的数据宝库,基本上大部分的想法都可以在其中找到数据可供分析。作为目前最庞大的临床公共数据库之一,NHANES数据库是一个庞大的横断面数据库,拥有超过10万名参与者,深受各个层次的研究者青睐,也帮助不少研究者完成了发文任务。如果你有好的思路,再加上新颖的分析方法,那么发高分文章简直是易如反掌!馆长今天带来的这篇文章就是利用NHANES数据库加上机器学习的分析方法组合发到了6.8分,完全不用做实验!如果你也有想法但是不知道怎么来实现,快来联系馆长吧!馆长最擅长的就是各种分析方法啦!
馆长今天带来的这篇研究分析方法十分的简单,就是探讨血/尿中具有代表性的8类环境化学物质中的43种与死亡率的关系,并进一步建立与环境化学物质相关的可解释的机器学习模型来预测死亡率。但它是怎么发到6.8分的呢?首先还是因为NHANES数据库具有十分庞大的数据量,使得研究结果更加可靠,其次就是作者的选题紧贴热点,近些年环境污染问题备受学术界的关注,最后就是机器学习这种分析方法十分适合大数据的研究,进一步增加了研究的可靠性。所以只要有好的点子,再加上馆长这里无数的分析方法,何愁发不出好文章来呢?快跟着馆长来看看这篇研究吧!

题目:开发与环境化学品相关的可解释的机器学习模型来预测全因和特定原因死亡率:一项基于NHANES的纵向研究
杂志:Ecotoxicology and Environmental Safety
影响因子:6.8
发表时间:2024年1月
研究背景
在环境污染造成的死亡中,环境化学品造成的死亡被严重低估。可能的原因是对人体内环境化学品暴露的研究仍然有限。目前还没有基于可解释的机器学习方法来探索环境化学品对死亡率的预测价值的研究。及早发现对死亡率有更大贡献的环境化学物质可以增强干预的潜力。因此,本研究利用美国国家健康与营养调查(NHANES)数据库,采用前瞻性研究设计,旨在探讨43种环境化学物质与全因死亡率、特定原因死亡率之间的关系。同时,应用可解释生存机器学习方法,建立了基于临床变量和环境化学物质的全因死亡率和特定原因死亡率的风险预测模型。探讨了环境化学物质对模型构建的影响,确定了对模型贡献较大的环境化学物质。
数据来源
数据集/队列
数据库
数据类型
详细信息
NHANES
访谈、实验室测试和体检数据
1602人

研究思路

本研究利用1602名来自国家健康和营养检查调查(NHANES)的参与者的数据,探讨血/尿中具有代表性的8类环境化学物质中的43种与全因死亡率、特定原因死亡率之间的关系。同时,应用可解释生存机器学习方法,建立了基于临床变量和环境化学物质的全因死亡率和特定原因死亡率的风险预测模型。探讨了环境化学物质对模型构建的影响,确定了对模型贡献较大的环境化学物质。研究思路如图1所示。
    
研究结果
1. 环境化学物质与死亡率的关系
根据与全因死亡相关的环境化学品浓度,在调整了潜在的混杂因素后,如表1所示,作者发现血清镉浓度与全因死亡的风险较高有关。尿中MP和2-NAP浓度与全因死亡风险较低相关。

与心血管疾病死亡相关的环境化学物质的SHR和95%CI如表2所示,在调整潜在混杂因素后,尿双酚A浓度与较高的心血管疾病死亡风险相关。多变量调整后的SHR为2.017。尿HMB浓度与CVD病死率呈负相关。多变量调整后的SHR为0.748。

环境化学物质和癌症死亡率之间的估计关系如表3所示。尿中MNBP与癌症死亡率的增加有关。多变量调整SHR为1.511。
2. 特征选择和模型构建
表4-6分别显示了用于预测测试集中的全因死亡率、心血管疾病死亡率和癌症死亡率的模型的区分和校准。对于全因死亡率,与Coxnet、RSF、GBS和EST模型相比,CoxPH具有最好的区分性,具有最高的时间依赖AUROC和C指数。同时,CoxPH的时间依赖性Brier评分也很低(表4)。因此,在所有变量: 0.953 (95%CI: 0.951–0.955)、环境化学品: 0.786 (95%CI: 0.780–0.793)和临床变量: 0.942 (95%CI: 0.940–0.945)下,COXPH被选为全因死亡率的最佳模型,AUROC与时间相关,如图2a所示。
对于心血管疾病死亡率,与其他模型相比,Coxnet模型具有最好的区分性,具有最高的时间依赖AUROC。同时,Coxnet模型也具有高的C指数和低的时间依赖的Brier评分。因此,在心血管疾病死亡率:0.935(95%CI:0.933-0.936)、环境化学品:0.705(95%CI:0.702-0.708)和临床变量:0.919(95%CI:0.918-0.920)下,Coxnet被选为最优模型,AUROC与时间相关,如图2B所示。
在预测癌症死亡率方面,与其他模型相比,Coxnet模型具有最好的区分性,具有最高的时间依赖AUROC。因此,在所有变量:0.850(95%CI:0.844-0.857)、环境化学成分:0.662(95%CI:0.654-0.671)和临床变量0.773(95%CI:0.768-0.778)下,COXnet被选为癌症死亡率的最佳模型,AUROC与时间相关,如图2C所示。
预测三种死亡率的最优模型的时间相关ROC曲线如图所示。作者发现,环境化学品略微提高了癌症死亡率的预测准确性(P<0.05),但对全因死亡率和心血管疾病死亡率的预测精度没有提高。
3. 模型解释
图3全面总结了在所有变量下预测全因死亡率、心血管疾病死亡率和癌症死亡率的最优模型中的重要特征。同时,前五个重要环境化学变量的限制三次样条图如图4所示。
在预测全因死亡率方面,年龄、性别、教育程度、自我报告的健康状况和尿MP排在特征重要性的前5位。此外,当只考虑所有变量模型中的临床变量时,年龄、性别、教育程度、自我报告的健康状况和腰围是最重要的5个特征。在纳入全变量模型的环境化学物质中,排在前5位的是尿MP、尿铅、血镉、尿2-NAP和尿Sb,其他依次是尿甲羟乙醇胺、血铅、尿I2和尿W(图3A)。值得注意的是,随着血Cd和尿Sb的逐渐增加,全因死亡的风险也随之增加。相反,尿MP、尿铅和尿2-NAP呈负相关(图4A)。图4(A)也显示,全因死亡的风险随着尿甲HHP、血铅、尿I2和尿W的增加而逐渐增加。    
在预测心血管疾病死亡率方面,年龄、体重指数、吸烟、性别和午睡时间是最重要的5个因素。此外,在纳入所有变量模型的临床变量的背景下,年龄、BMI、吸烟、性别和腰围成为最重要的5个特征。在全变量模型中的环境化学物质类别中,影响最大的5个因素是尿2-NAP、血Cd、尿W、尿BPA和尿I2,其他环境化学物质依次为尿甲HHP、尿3-Flu、血CHCL3、血铅和尿MEHP(图3B)。同时,图4B显示,随着血Cd、尿W、尿BPA和尿I2的增加,心血管疾病死亡的风险逐渐增加,而2-NAP减少。图4B中CVD病死率呈正相关,与尿MEHHP、尿3-Flu、血CHCL3、血铅呈正相关,与尿MEHp呈负相关。
在预测癌症死亡率的全变量模型中,BMI、年龄、腰围、尿Sb和婚姻状况是最重要的5个指标。在全变量模型的临床变量中,BMI、年龄、腰围、婚姻状况和饮酒是最重要的5个因素。对于全变量模型中的环境化学物质,排在前5位的是尿锑、尿3-流感、尿2-流感、尿钼和尿甲醇胺,其余为尿MBP和血清CHCL3(图3C)。随着尿SB、尿2-Flu和尿3-Flu的增加,癌症死亡的风险逐渐增加,而尿甲HHP和尿Mo逐渐减少(图4C)。图4B说明随着尿MBP和血清CHCL3的增加,全因死亡的风险增加。
文章小结
本研究是第一次开发与环境化学物质相关的可解释的机器学习模型,以预测所有原因和特定原因的死亡率。总体而言,预测模型的性能显示出很好的预测能力,可以识别死亡率,特别是全原因和心血管疾病的死亡率。利用了机器学习加上NHANES数据库进行大数据分析,可谓是强强联手。总之,这篇文章的分析思路可以说是十分简单,当然,分析方法对于馆长来说也是小菜一碟!如果你也有想法,快来联系馆长吧,馆长可以给你提供无数的分析套路,小白也能轻松上手!

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果



往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!