2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
小伙伴们都知道机器学习模型越来越火热,我们的一些小美女看着外面炎热干燥的天,不禁想问空气质量会影响我们的玉貌花容吗?今天云云给大家带来的是厦门大学公共卫生学院老龄化与健康研究中心方亚等人基于NHANES的创新大作。
1.该研究基于对大众公开的美国国家健康与营养调查(NHANES)数据库,对其2003~2018年的数据进行了筛选,最终共纳入1602名受试者。
2.该研究是基于生存的机器学习模型,避免了机器学习模型直接用于数据可能会造成扭曲风险预测,综合考虑了生存时间生存概率,准确识别与死亡相关的环境化学物质。其次,在关联分析中只包括了单一的环境化学物质,最大限度地减少了偏差。
3.为保证模型可信度,采用交叉验证方法充分利用数据,SMOTE减轻模型性能方面的影响。设置对照检验潜在混杂因素,敏感度分析来评估稳健性。对机器学习感兴趣并且想要发表高分SCI的小伙伴们可以借鉴一下本文的研究思路哦~ps:机器学习再联合癌症研究无疑是发文利器,但常规套路想要发个好文章可谓痴人说梦,那对机器学习感兴趣但不知道怎么创新的小伙伴可以来找小云哦!这里有高分易复现的创新思路,小伙伴们赶紧来公众号后台找我噢!
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
定制生信分析

云服务器租赁

(加微信备注99领取试用)


2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
题目:开发与环境化学品相关的可解释机器学习模型,以预测全因和特定原因死亡率:一项基于NHANES的纵向研究
杂志:Ecotoxicology and Environmental Safety
发表时间:2024年1月
关注公众号,后台发送“123”可以直接获取原文PDF,文献编号:240524
研究背景
据全球健康与污染联盟统计,2019 年,环境污染引发的疾病导致约 900 万人过早死亡,占全球死亡人数的 16%。而人体接触环境化学物质的研究有限,并且只有一小部分经过了严格的流行病学和毒理学测试。社会和工业化的快速发展,环境化学物质导致的死亡不容忽视,及早发现对死亡率有更大贡献的环境化学物质可以增强干预的潜力。而关于环境化学物质与死亡率关系的研究很少,结论也不一致。例如,全氟辛烷磺酸和邻苯二甲酸盐。迄今为止,很少有研究阐明环境化学物质对死亡率的潜在预测价值。机器学习算法能处理复杂的共线性和交互效应,从而有效提高预测准确性,并揭示环境化学物质与心血管疾病之间的隐藏关系。近年来,采用可解释的机器学习方法来解释其内在的决策机制在实践中得到了很好的应用。然而,目前还没有基于可解释的机器学习方法来探索环境化学品对死亡率的预测价值的研究。    
数据来源
美国疾病控制和预防中心(CDC)创立的全国健康与营养调查(NHANES)数据库(http://www.cdc.gov/nchs/nhanes.htm),该数据库每两年对具有全国代表性的美国居民样本进行访谈、实验室测试和体格检查,该研究利用了其2003年至2018年的数据,初始共80312 人。本研究包括了同时测量血清/尿液中金属、高氯酸盐、邻苯二甲酸盐、酚类、杀虫剂、多氟烷基化学品 (PFC)、多环芳烃 (PAH) 和挥发性有机化合物 (VOC) 的个体(排除样品:N = 78447)。其次,进一步排除了年龄小于18岁(N = 254),死于伤害(N = 9)的人。最后,1602名受试者被纳入研究。(截至2019年12月31日)从国家卫生保健服务中心(https://www.cdc.gov/nchs/data-li nkage/mortality.htm)获得的数据确定死亡率。
研究思路
利用美国国家健康与营养调查(NHANES)数据库,采用Coxnet进行特征选择,选择了前20名的环境化学品,利用Python 3.11.2 中的 Scikit-survival 0.20.0基于应用可解释生存机器学习方法(CoxPH、Coxnet、RSF、GBS和EST)建立生存预测模型, 以探讨血清/尿液中具有代表性的8类环境化学物质中的43种(排除检测下限(LLOD)低于70%的环境化学品)和 18 个临床变量与全因死亡率、特定原因死亡率之间的关系,所有特征的缺失率均低于10%。根据ICD-10分类系统定义死因,并将其分为三类:全因死亡、心血管疾病死亡(I00-I09、I11、I13、I20-I51)和癌症死亡(C00-C97)。采用STATA SE 15.1,R 4.0.5进行统计分析。RCS和SHAP偏相关图分析各种环境化学物质与死亡率的关系。    
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
图1模型推导和验证的流程图
主要结果
1.基线特征
首先,从公开网站(http://www.cdc.gov/nchs/nhanes.htm)上获得CDC 2003~2018年NHANES的数据,该数据每两年一更新。最初共有80312人(表S2)。选择同时测量血清/尿液中金属、高氯酸盐、邻苯二甲酸盐、酚类、农药、多氟烷基化学品(pfc)、多芳烃(PAHs)和挥发性有机化合物(VOCs)的个体(排除样本:N = 78447)。进一步排除年龄小于18岁(N = 254)、因伤死亡(N = 9)的患者。最终共纳入1602名参与者,平均年龄为46.33岁±18.39岁,其中51.06%为男性。在154,646人月的随访中(中位随访时间为96.53个月),发生了127例全因死亡,包括34例心血管疾病死亡,35例癌症死亡(表S3)。1602名受试者环境化学品浓度的分布见表S4。样本选择流程图如图2所示。    
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
图2 样本选择流程图
2.环境化学品与死亡率之间的关联
通过使用Cox回归模型分别分析了与三个死亡率相关的环境化学物质浓度。结果表明,在调整了潜在的混杂因素后,血清中Cd浓度与较高的全因死亡风险相关。尿液中MP和2-NAP的浓度与较低的全因死亡风险相关(表1)。尿液中BPA的浓度与CVD死亡风险较高有关。HMB的尿浓度与CVD死亡率呈负相关(表2)。尿MNBP与癌症死亡风险增加有关(表3)。其他环境化学品的结果见表S5、表S6和表S7。在敏感性分析中,显示了类似的结果(表S8、表S9和表S10)。
表1 环境化学物质与全因死亡率的关系
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
Modela 没有针对任何变量进行调整。Modelb 根据年龄,性别,种族,教育程度,婚姻状况,吸烟,饮酒,自我报告的健康状况,糖尿病,高血压,腰围(cm) ,糖血红蛋白(%)和平均血小板体积(fL)进行调整。
表2环境化学物质与心血管疾病死亡率的关系
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
Modela 没有针对任何变量进行调整。Modelb 根据年龄,教育程度,婚姻状况,饮酒,自我报告的健康状况,糖尿病,腰围(cm) ,糖血红蛋白(%) ,HDL- 胆固醇(mg/dL)和总胆固醇(mg/dL)进行调整。
表3 环境化学物质与癌症死亡率的关系
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
Modela 没有针对任何变量进行调整。Modelb 根据年龄,种族,教育程度,婚姻状况,吸烟,饮酒,高血压,糖血红蛋白(%)和平均血小板体积(fL)进行调整。P < 0.05*。
3. 特征选择和模型构建
分别根据全因死亡率、心血管疾病死亡率和癌症死亡率记录训练集上的c指数,选择了前20种环境化学物质用于模型的构建(表S11、表S12和表S13)。在测试集中,对于全因死亡率,与 Coxnet、RSF、GBS 和 EST 模型相比,CoxPH 具有最佳的区分度,具有最高的时间依赖性 AUROC 和 C 指数。同时,CoxPH的时变性Brier评分也很低,是全因死亡率的最佳模型(表4)。而Coxnet被选为具有时间依赖性AUROC的CVD死亡率的最佳模型(表5)。同样,Coxnet被选为具有时间依赖性AUROC的癌症死亡率的最佳模型(表6)。预测三种死亡率的最优模型的随时间变化的ROC曲线如图3所示。预测死亡率的不同模型的时间依赖性 AUROC(图4),环境化学物质略微提高了癌症死亡率的预测准确性(P < 0.05),但对全因死亡率和CVD死亡率的预测没有(表S14)。    
表4预测全因死亡率模型的性能
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
表5预测心血管疾病死亡率模型的性能
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
表6预测癌症死亡率模型的性能
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!    

2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

图3预测三种死亡率的最佳模型的 ROC 曲线,(a)具有全因死亡率的模型,(b)具有心血管疾病死亡率的模型,(c)具有癌症死亡率的模型。

2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

图4用于预测死亡率的不同模型的时间依赖性 AUROC,(a) 全因死亡率模型,(b) CVD 死亡率模型,(c) 癌症死亡率模型。平均随时间变化的 AUROC 以虚线表示。
4. 模型解释
通过SHAP进行全变量预测模型的重要性方面,年龄是全因死亡率和心血管疾病死亡率的最重要影响因素,BMI是癌症死亡率的最重要因素。环境化学物质也起着至关重要的作用,尤其是在癌症死亡率方面。尿Pb和尿Sb对全因死亡率模型的预测性能贡献更大。尿 2-NAP、血清 Cd、尿 W 和尿 I2为CVD死亡率的预测做出了重大贡献。尿 Sb、尿 3-FLU、尿 2-FLU、尿 Mo 和尿 MEHHP 对癌症死亡率预测很重要(图5)。图6和图7在此基础上进行了扩展,展示了每种环境化学物质的SHAP值与特征值之间关系的部分依赖图。同时,前5个重要环境化学变量的限制立方样条如图8所示,其他变量如图9所示。随着血清Cd和尿Sb的增加,全因死亡率的风险随之增加。而尿MP、尿Pb和尿2-NAP呈反比关系(图8a)。图8b可以看出,随着血清Cd、尿W、尿BPA、尿I2升高,2-NAP降低,CVD死亡风险逐渐增加。随着尿Sb、尿2-FLU和尿3-FLU的增加,癌症死亡风险逐渐增加,但尿MEHHP和尿Mo降低(图8c)。图7(a)和图9(a)显示,随着尿MEHHP、血清Pb、尿I2和尿W的增加,全因死亡风险逐渐增加。图7(b)和图9 (b)显示CVD死亡率与尿MEHHP、尿3-FLU、血清CHCL3、血清Pb呈正相关,与尿MEHP呈负相关。图7(b)和图9(b)表明,随着尿MBP和血清CHCL3的升高,全因死亡风险增加。    
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
图5 SHAP对3个预测模型的最优模型汇总图。(a)全因死亡率模型,(b)心血管疾病死亡率模型,(c)癌症死亡率模型。

2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

图6 三种死亡率预测模型的最优模型的前五个重要环境化学变量的部分依赖图,(a)全因死亡率模型,(b)心血管疾病死亡率模型,(c)癌症死亡率模型。X 轴显示的分布特征值作为一个直方图后的 z 分数标准变换。Y 轴显示模型输出(即 SHAP 值)随特征值变化的趋势。部分依赖图的 Y 轴是用对数优势尺度来测量的。

2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

图7三种死亡率预测模型的最优模型的其他环境化学变量(前5个除外)的部分依赖图, (a)全因死亡率模型,(b)心血管疾病死亡率模型,(c)癌症死亡率模型。X 轴显示的分布特征值作为一个直方图后的 z 分数标准变换。Y 轴显示模型输出(即 SHAP 值)随特征值变化的趋势。部分依赖图的 Y 轴是用对数优势尺度来测量的。    
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!
图8 三种死亡率预测模型的最优模型的前五个重要环境化学变量的的限制性立方样条, (a)全因死亡率模型、(b)心血管疾病死亡率模型、(c)癌症死亡率模型。

2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

图9三种死亡率预测模型的最优模型的其他环境化学变量(前5个除外)的限制性立方样条,(a)全因死亡率模型,(b) CVD 死亡率模型,(c)癌症死亡率模型。    
文章小结
本研究开发了与环境化学物质相关的可解释机器学习模型来预测全因和特定原因死亡率的研究,结合了预测和关联分析。结果表明,预测模型在识别死亡率方面表现出出色的预测能力,特别是对于全因死亡率和心血管疾病死亡率。文章架构完整,但由于数据限制,未进行多中心和大规模数据来验证。其次贝叶斯核机回归(BKMR)可能在环境化学品相互作用影响死亡风险时尤为重要,在未来可能成为新的热点。小伙伴们对机器学习和公共数据库感兴趣的话,这篇文章无疑是一个很好的借鉴,宝子们可要好好抓住这样的机会哦。有进一步需要的小伙伴也可以扫码来找小云哟,我们能在生信分析和方案设计提供更完善的角度。
2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!

定制生信分析

云服务器租赁

热点推荐

孟德尔随机化

临床公共数据分析

单细胞测序

肿瘤免疫与微环境

机器学习

单基因分析

生信云服务器

代码合集(点击查看)

培训班系列(点击查看)

原文始发于微信公众号(云生信学生物信息学):2024环境方向仍然大有可为!厦门大学方亚团队,NHANES+机器学习+环境污染物关联分析,这选题简直绝绝子!