小伙伴们都知道机器学习愈来愈成为生物医学领域的宠儿,根据相关统计在2023年发文量就已达到33542篇,但这也意味在这个领域是越来越内卷,那我们该如何破圈呢!不急不急,今天小云带来的这篇文章就给各位一个破圈的好思路,那就是咱们可以联合当下热门的孟德尔随机化呀!这不,小云发现一篇发表在Nature Communications上的深度机器学习+孟德尔随机化的16+高分文章,这篇文章新在何处,就让小云来带大家揭秘一下吧~
1.本研究通过对CMR图像进行人工智能高通量识别,能够快速而准确地定量左心室室壁区域厚度,且相比目前常用的图像识别算法,在识别速度和准确性方面表现出一定的优势。
2.通过整合MR和观察性数据,探讨了左心室室壁区域厚度与多种心血管疾病之间的关联。并筛选影响左心室室壁区域厚度表型变异的基因,分析潜在功能。
3.数据来源于公开可用的数据集和数据库,方便科研人员进行学习和复现。(PS:本文的生信分析部分的数据都来源于公开数据库和网站,容易复现,感兴趣的宝子直接扫码找我噢!)
定制生信分析
云服务器租赁
(加微信备注99领取试用)
题目:左心室成像衍生表型的全基因组关联分析确定了72个风险位点,并产生肥厚性心肌病的遗传见解
杂志:Nature Communications
影响因子:IF=16.6
关注公众号,后台发送“123”可以直接获取原文PDF,文献编号:240517
左心室结构和功能的变化与多种心血管疾病(cardiovascular diseases,CVDs)如高血压、房颤、心肌病和心力衰竭等密切相关。一些研究表明,左心室室壁区域厚度(Left ventricular regional wall thickness,LVRWT)在心肌病、舒张功能障碍和心室心律失常等心脏疾病中起到了独立预测的作用,因此对LVRWT的遗传结构进行识别和解析具有重要的公共卫生意义。另一方面,由于不同受试者心脏结构的高度可变性,目前临床经验丰富的影像医生数量远远满足不了对心脏壁厚度识别准确估计需求。因此,迫切需求开展对LVRWT成像表型进行大规模无偏倚图像识别和遗传结构解析等相关研究。
本研究使用由一位临床专家注释的自动心脏诊断挑战(ACDC)数据集来训练深度学习模型,该数据集共有1902个注释图像。随机选择1420张短轴图像用于训练,100张短轴图像用于验证,382张短轴图像用于测试。
此外,纳入了来自UKB数据集中2006年至2010年的500幅中腔图像进行独立评估。排除标准为:(1)排除影像学不良、遗传数据信息缺失、既往心肌梗死、心力衰竭诊断以及体重指数(BMI) < 16或> 40 kg/m2的参与者;(2)排除没有基因型数据的个体;(3)排除缺失吸烟和饮酒信息的参与者;(4)排除在入组UKB之前患有相应疾病的个体。最终样本量为439,981人。
本研究首次开发了一种名为心肌分割测量方法(Myocardial Segmentation and Measurement Method, MSMM)的深度学习计算框架。该方法系统定量出12个LVRWT指标,分别对应收缩末期和舒张末期的不同心室壁区域,为研究提供了更详尽的心脏结构信息。接着,研究者将MSMM方法应用于超过45000名具有CMR图像和遗传数据的人群,对这些LVRWT指标进行了细致的遗传分析。最后,采用遗传相关性和孟德尔随机化分析,观察LVRWT性状与肥厚型心肌病(HCM)之间存在显著的因果关系。这些发现深入了解了LVRWT表型的遗传决定因素,并揭示了HCM病因学的生物学基础。
所建立的测量厚度的SMM程序如图1所示。为了在分割任务中实现最先进的性能,使用由一位临床专家注释的自动心脏诊断挑战(ACDC)数据集来训练深度学习模型,在382张测试图像中,有80张图像属于两个中腔切片。由于后续分析仅使用中腔切片量化结果,因此我们对每个病例的两个中腔切片进行评估,以确保比较的一致性。此外,由于GWAS是在UKB数据集上执行的,纳入了来自UKB数据集的500幅中腔图像进行独立评估。从1420张ACDC图像中训练出基于Deep Layer Aggregation的深度学习模型16,17作为网络架构。从这些数据中训练出基于深层聚合(Deep Layer Aggregation,DLA)的深度学习模型作为网络架构。经过训练的深度学习模型随后被用于输出超过45,000人的UKB成像子研究中的LV分割结果。
为了了解心肌壁厚变异的共同遗传基础,对每个队列中的12个LVRWT性状进行了一系列GWAS。共鉴定出72个与12个LVRWT性状相关的全基因组显著变异(P<5×10−8),包括收缩末期IS的16个变异、I的2个变异、IL的7个变异、AL的10个变异、a的3个变异和AS的7个变异;在舒张末期,IS有5个变异,I有3个变异,IL有3个变异,AL有4个变异,A有3个变异,AS有9个变异(图2)。
3. 12 个 LVRWT 性状风险变异的功能表征
LVRWT GWAS基因座共包含6345个连锁不平衡候选变异(LD, r2 >.6)和62个先导变异。为了表征12个LVRWT性状的风险变异特征,我们首先通过SnpEff19生成了控制变异集,并功能性地定义了变异的基因组位置分布。与对照变异体相比,我们发现风险变异体在内含子区、基因上下游区和基因间区显著富集(图3a, b)。接下来,研究风险变异体是否在遗传调控元件中富集,观察到,在启动子[H3K4三甲基化标记(H3K4me3)]、增强子[H3K4单甲基化标记(H3K4me1)、H3K27乙酰化标记(H3K27ac)和H3K36三甲基化标记(H3K36me3)]和转录因子结合位点(TFBSs)的组蛋白标记中,12个LVRWT性状的风险变异显著富集。而抑制转录[H3K9三甲基化标记(H3K9me3)]的显著缺失(图3c)。12个LVRWT的风险变异在CVD的GWASs位点中显著富集(图3d)。综上所述,这些结果表明,风险变异可能通过激活染色质状态来调节基因的表达,并可能导致心血管疾病的发病率增加。
图3 12 个 LVRWT 性状的风险变异的功能表征
使用由多条证据支持的综合方法鉴定影响LVRWT表型变异的候选基因,共鉴定出127个收缩末候选基因和95个舒张末候选基因。为了进一步阐明候选基因的潜在功能,对127个收缩期末基因和95个舒张期末基因的生物学通路进行了表征。GO分析表明,候选基因在与心脏发育、心脏收缩和心肌细胞发育相关的生物通路中显著富集,这些通路对心脏重塑至关重要(图4a、b)。对54种特定组织类型分别进行组织表达分析,在大多数LVRWT性状中,心房附件和左心室组织的P值最显著(图4c、d)。总之,这些发现极大地促进了我们对LVRWT表型遗传基础的理解,并表明候选基因编码了参与肌体基础结构构建和维持的必需蛋白。
图4 与 LVRWT 相关的易感基因的通路富集和组织富集
接下来,通过方差成分分析估计可归因于基因型的 LVRWT 表型变异的比例。收缩末期隔内 LVRWT 的全基因组变异遗传力估计值最高(ED-IS,为 28%),其次是舒张末期隔下 LVRWT(ED-IS,25%),而舒张末期前外侧 LVRWT 的遗传力较低,遗传率为 17%(图5a)。观察到 LVRWT 性状之间的显著遗传相关性,范围从高到低(图5a)。这反应了在相同心脏周期阶段的区域之间发现了很强的正相关遗传,而在不同心脏周期阶段的区域之间发现了中度相关,这可能反映了遗传效应对心脏壁发育的影响。
由于 LVRWT 和 LV 腔室的相互依赖性以及壁厚重塑的重要性,首先使用 LVRWT 汇总统计数据和最近发表的 LV GWAS 的汇总数据,通过连锁不平衡评分回归 (LDSC) 分析来量化它们的遗传相关性强度。LVRWT性状与左心室射血分数(LVEF)和每搏输出量(SV)等左心室容积和功能性状具有高度正向的遗传相关性,表明它们有强烈的生理联系(图5b)。此外,还研究了 12 个 LVRWT 性状与可能介导 CVD 进展的心脏测量值之间的遗传相关性,LVRWT性状与心率、舒张压和收缩压等性状高度正相关(图5b)。总的来说,这些发现支持了研究LVRWT性状遗传学作为理解心脏重塑驱动因素的补充途径的理由。
为了检验LVRWT性状和CVDs之间的共同遗传效应,对11个选定的CVDs性状的GWAS汇总统计进行了遗传相关性分析。正如预期的那样,观察到 12 个 LVRWT 性状与 CVDs(如 HCM、高血压、肺动脉高压、慢性缺血性心脏病和缺血性卒中)呈统计学正遗传相关性。与其他LVRWT性状相比,舒张末期前LVRWT与HCM的遗传相关性最高,对于隔下LVRWT,观察到与收缩期和舒张期终末HCM的遗传正相关。此外,与其他心血管疾病相比,HCM 作为疾病与 LVRWT 的遗传相关性估计值最高(图5c)。总的来说,这些关于LVRWT性状与CVDs之间遗传相关性的发现为遗传重叠提供了定量支持。
6.左心室区域壁厚度暴露和心血管疾病的孟德尔随机化
12 个 LVRWT 性状与 CVD 风险之间的遗传相关性使我们假设 LVRWT 性状增加与 CVD 有因果关系。然后,使用双样本孟德尔随机化 (MR) 测试了 12 个LVRWT 暴露与 CVD 结果之间的这种潜在因果关系。尽管暴露-结果效应的异质性和变异数量存在局限性,但逆方差加权法和敏感性分析的结果支持 10 个 LVRWT 性状中的 12 个与 HCM 风险增加之间的因果关系(图6)。还发现,外侧、前隔和前 LVRWT 对收缩末期和舒张末期心肌病的因果效应有力支持 (P < 0.01)。然而,对高血压、心绞痛、心肌梗死、慢性缺血性心脏病和缺血性卒中没有统计学意义的影响(P > 0.05)。综上所述,这些发现表明,LVRWT性状与HCM之间的遗传关系可能部分反映了潜在的因果过程。
图6 使用孟德尔随机化的 LVRWT 表型和CVD之间的因果效应
对于每个LVRWT性状GWAS中位于常染色体上的独立遗传变异的效应大小得出加权遗传剂量的PRS。首先研究了PRS是否能区分12个LVRWT性状,正如预期的那样,PRS较高的参与者在所有12个LVRWT特征上都倾向于具有较厚的LVRWT,特别是在收缩期末和舒张期末的室间隔间LVRWT(图7a, b),这表明PRS对LVRWT产生了有利的区分。在确定了LVRWT性状对HCM的因果关系后,试图评估LVRWT性状的遗传易感性是否与剩余439,981名没有CMR成像数据的个体的HCM事件相关。我们发现收缩末期隔内LVRWT的PRS分位数与HCM的高风险相关,正如预期的那样,收缩末期隔内 LVRWT 的 PRS 在 HCM 人群中表现出有效的风险分层(图7c)。此外,我们发现收缩期末室间隔间LVRWT的PRS可以明确区分hcm病例和健康对照(图7e)。此外,发现收缩末期隔内 LVRWT 的 PRS 可以清楚地区分发生 HCM 的病例和健康对照组(图7f)。总体而言,较高的遗传决定的LVRWT与较高的HCM风险相关,这可能为识别高危个体提供有价值的风险分层指导。
图7 PRS的分布和HCM的累积发病率按PRS分层
这篇文章很好的结合了目前最前沿的生信研究方向——机器学习+孟德尔随机化,可谓是两全其美!在这篇文章中,作者基于公共数据库中的CMR图像数据,开发了一种MSMM的深度学习计算框架,能够快速而准确地定量LVRWT,并通过遗传相关性和孟德尔随机化分析证明了LVRWT性状与肥厚型心肌病(HCM)之间存在显著的因果关系。这些技术的整合应用,轻松实现了非肿瘤疾病的0实验1区16分+文章,思路实在值得学习和借鉴,需要复现这篇文章思路或定制分析思路的朋友欢迎call小云,风里雨里小云公众号等你哦~
原文始发于微信公众号(云生信学生物信息学):原来我和Nature Communications就差个孟德尔随机化!武汉大学缪小平/田剑波团队联合机器学习拿下16+!