一区10分+的免疫疾病分型,老司机亲自教你怎样开机器学习的快车!

有没有小伙伴发现,不论何时搜索新文章,放眼望去十之七八都是关于肿瘤免疫相关的文献,这种火热程度让小云看了也有点慌呀。前些天有师妹问我除了肿瘤还有啥方向推荐做生信分析,其实像阿尔兹海默症、亨廷顿舞蹈症这样的遗传类疾病和一些免疫性疾病等等也是生信可攻的方向,还有一些更罕见的疾病简直太适合生信爆冷啦~~

对系统性红斑狼疮这样自身免疫性炎症疾病,囿于遗传或环境因素难以进行有效临床治疗和研究。本文针对这一点,结合大量的bulk转录组测序和微阵列数据,利用机器学习算法进行内源性的分类并验证。看来机器学习还是猛啊,搭配bulk转录组也能发表10分+一区,当然选对研究对象也很重要呢!如果对这类疾病的分析没有思路,那可千万不要错过今天小云分享的文献哟!(PS:没有思路、不知道怎么创新的宝子们,记得来找小云哦,超多个性化思路等你来拿!)

  • 题目:转录组学特征分析揭示具有临床意义的SLE分子内分型
  • 杂志:Genome Medicine
  • 影响因子:IF=12.3
  • 发表时间:2023年10月

研究背景

缺乏典型的疾病模式是了解系统性红斑狼疮(SLE, lupus)发病机制和开发更有效治疗方法的主要限制因素。人们一直在努力确定SLE的分子内型,即由不同的病理生物学功能、生物标志物或其他疾病机制定义的患者亚群。内源性类型的确定已经被用于癌症和过敏性疾病的治疗,而在其他自身免疫性疾病中刚刚进行概念化。已有研究发现狼疮的异质性可以在外周血中的基因表达水平上表现出来,这表明分子谱分析可以作为识别具有临床意义的特定狼疮内型的基础。

迄今已有几个研究小组报道了基于转录组学的SLE亚分类,但总的来说,这些研究都是针对有限数量的患者进行的单中心研究,并且尚未形成公认的亚群的广泛共识。此外,这些研究没有考虑基因表达的混杂变量,如祖先或药物,也没有将研究结果转化为临床护理或临床试验设计。

数据来源

研究思路

采用信息性基因模块的基因集变异分析(GSVA),使用包含2183例患者的5个数据集,确定了8种SLE内型。对17个数据集的3166个样本的扩展分析显示,每种内型都有独特的基因富集模式,但并非所有内型都在所有数据集中观察到。结合机器学习算法对2183名患者进行了训练,并对983名未用于开发模型的患者进行了测试,结果表明,ML算法可以有效地分类为8种内源性类型之一。SHapley加性解释(SHAP)显示了一组独特的特征,这些特征对将单个样品分类为每种内质型有影响。计算每位患者的复合分子评分,并与标准实验室测量结果显著相关。临床特征的显著差异与不同的内质型相关,转录谱受干扰最小的内质型表现出较低的疾病严重程度。在随后的52周内,使用标准护理药物和特定内型的患者更有可能对一项临床试验(tabalumab)中测试的研究产品产生临床反应,而更异常的内型患者更有可能经历严重的急性发作。。

主要结果

  1. 5个典型狼疮数据集中分子内型的鉴定

通过32个免疫细胞/炎症通路基因模块的GSVA富集评分的k-均值聚类,在来自ILL临床试验(GSE88884 ILL-1和ILL-2)的合并数据集中,在1620名活跃的女性狼疮患者中鉴定出6个分子亚群(内型)(图1A),内皮型标记为Z1-Z6。与对照相比,根据其GSVA富集评分,特征被认为异常富集或表达。例如,在非狼疮对照组中,IFN、浆细胞和肿瘤坏死因子(TNF)等模块的GSVA评分小于零,而B细胞、T细胞和T细胞链(TCRA、TCRB)等模块的GSVA评分大于零。在狼疮患者样本中,Z1内型表现出异常富集的基因模块(特征)数量最少,而Z6内型最多。

接下来作者将这种内分型方法扩展到其他不相关的数据集,确定能否检测到相同或额外的内分型。在3个数据集中,266名成年狼疮患者的队列中确定6种内型,137名儿童狼疮患者的队列中确定5种内型,160名其他成年狼疮患者的队列中确定4种内型(图1B-D)。。

余弦相似性分析表明,有几种SLE内型在所有数据集中都是可重复的,而其他的仅在一些数据集中发现(图1E)。通过余弦相似度可以识别出总共11种内型。但是对单个内膜型GSVA平均分数的分层聚类表明,在8个子集之后,在非常小的统计空间内出现包含很少成员的另3个子集(图1F)。总之,这些分析保守地确定了8种SLE内型的最佳数量。从5个数据集中鉴定出的8种内型的K-means聚类以及主成分分析(PCA)和t分布随机邻居嵌入(t-SNE)显示子集的良好分离。

图1 利用5个数据集确定狼疮内型的最佳数量

  1. ML将SLE样本划分为内型

为了在3166例SLE患者的完整队列中确定狼疮的8种内源性类型,作者将17个数据集中26/32个可测量特征的GSVA富集评分连接起来,并采用k-means (k=8)管道,将所有样本分为a-h的8种内源性类型(图2和3A)。这些结果成为后续机器学习的分类标签。

然后使用来自5个训练/内部验证数据集的GSVA评分(n=2183)来生成ML模型,将来自2183个样本的训练数据进一步划分为训练集(80%)和验证集(20%)。采用多种算法进行一次多类分类,预测内型隶属度并进行内部验证。对来自另外12个独立数据集的983例患者样本的基因表达谱进行测试和外部验证,生成RF、SVM、logistic回归(LR)和梯度增强(GB)模型的受试者工作特征(ROC)曲线,并显示出较高的预测能力(图3B, C)。使用RF分类器(在多类和二元分析中都有效)将983例患者从测试集中分类为8种内型(图3D)。另外作者还分析了随机删除特征时的模型性能,发现需要所有26个特征才能通过k-means最优地识别8种内型。此外,RF分类器在两性的队列中观察到所有的内源性类型。

图2 ML模型的实验设计,将患者分为最后8种内型

图3 机器学习算法可以高精度地预测狼疮内源性隶属度

  1. 复合度量LuCIS的开发

作者将基因表达谱的信息减少到临床指标,称为LuCIS,以数字显示分子异常的范围。采用RPLR模型根据二值化GSVA富集评分计算每位患者的LuCIS值(图4A)。然后将这些评分与8种狼疮内源性类型中每个患者的位置进行比较,并显示每种内源性类型的LuCIS值增加(图4B)。

作者计算了5个数据集中健康的非狼疮对照组的得分 (图4C)。发现最不正常的狼疮内型的平均LuCIS值与非狼疮对照组没有显著差异,这表明LuCIS识别出最不正常的内型与正常转录谱的相似性。

图4 LuCIS总结了个体狼疮患者分子异常的严重程度

  1. 使用SHAP确定内分型最重要的特征

作者使用ML对样本进行一对一的分类,然后使用SHAP计算每个特征对每个内型的贡献。8种内型患者的平均绝对SHAP值揭示了对该模型有贡献的前20个特征,其中主要组织相容性复合体II (MHCII)和IFN是总体上最具影响力的。抗炎、粒细胞和中性粒细胞是最显著的内源性H型 (图3A),而缺乏单核细胞、抗炎和IFN的富集对最不受干扰的内源性A型影响最大。

作者采用了七种二元分类阐明8种内质型的具体特征,每种分类将7种转录干扰较多的内质型(B-H)中的1种与最不异常的内质型(A)进行比较,所有分类器都表现良好。然后使用射频分类器的SHAP分析来描绘个体内型与最正常狼疮内型(内型A)的特征,数据显示为区分内型的特征,不同的特征模式区分了大多数内型(图5)。例如免疫异常最多的内皮型(H)表现出单核细胞、中性粒细胞、TNF和IFN信号的高贡献(图5),而T细胞信号对内皮型B的贡献最大(图5)。SHAP依赖图详细描述了个体特征对模型预测的各种影响,使用基尼指数(与RF分类器公用的另一个特征重要性度量)也确认这些结果。

图5 SHAP分析揭示了7种异常狼疮内型中转录扰动最显著的特征

  1. 临床资料不确定分子内型

作者使用k-means对ILL-2狼疮患者的临床元数据,仅基于临床特征确定了6个子集。另外六个子集也通过单独使用变分自编码器来识别,以确定深度学习算法是否能够替代识别内型。临床k均值子集主要由祖先决定,而临床自编码器子集是祖先异质性的。通过调整后的Rand指数,临床确定的亚群与分子内型以及彼此存在显著差异。作者使用了ML分类器,使用相同的临床数据作为特征,以确定它们是否可以预测内分型隶属关系,平均RF分类器精度为32%,进一步表明临床特征不足以识别内分型。

  1. SLE内型的临床特征

作者探究内分型成员是否与SLE的各种临床特征相关,在图1A中识别的子集/内型被重新分配到一个字母分类(a-h),基于余弦相似度与最终的8个内型(图6)。相关元数据分析显示,在SLEDAI、自身抗体滴度、淋巴细胞减少和血清补体水平方面,不同内型患者存在显著差异。亚群A (Z1,异常程度最低)的SLEDAI最低,自身抗体滴度最低,补体水平最高,而内型E (Z3),D/G (Z4),F/H (Z5)和G/H (Z6)表现出更多的异常临床特征(图6A)。综上,内型A (Z1)表现出最低的疾病活动性,E (Z3)表现出最大的疾病活性,其次是F/G (Z6)。与更多疾病活性相关的内皮型的特征是浆细胞、髓细胞、中性粒细胞、炎性细胞因子和淋巴细胞减少症的各种特征富集组合(图第1A段)。

与其他亚组患者相比,A (Z1)组接受标准护理(SoC)药物治疗的患者在随后的52周内发生严重斑块的频率较低(图6B)。内型成员与祖先(非洲人、欧洲人或西班牙人)(图6C)和药物使用(口服类固醇、硫唑嘌呤或甲氨蝶呤)之间也存在显著关系(图6D)。在血管炎、脱发、白细胞减少、关节炎、粘膜溃疡、伴随的器官系统和SLEDAI结构域的总体数量等内分型中发现了更细微但显著的差异。

图6 SLE内型的临床特征

  1. 内源型和血统与SoC治疗的关系

作者进一步探究祖先和药物使用的亚群成员存在差异的关系(图6C-D)。当仅聚集GSE88884的EA患者时(n=1118),观察到的相同的六种内型。在AA人群中也看到了类似的结果。当仅聚集NAA/西班牙裔患者时(n=232),从整个队列中确定了6个内分型中的5个。因此在每个祖先组中观察到大多数内型,但内型分布因祖先而异。

作者使用免疫抑制剂分层的患者中重复了这些分析,并比较了整个原型队列(所有活跃的女性)中患者与内型的分布。霉酚酸盐或甲氨蝶呤联合类固醇治疗似乎会最大程度减少内分型G/H (Z6)。甲氨蝶呤类固醇治疗似乎也减少了E内型(Z3)。受干扰最小的内型A (Z1)患者的分布也随着类固醇和免疫抑制剂的治疗而增加。综上表明,在接受免疫抑制药物治疗的患者中,某些内型不能被发现/被减少(通过余弦相似性),这意味着治疗可以抑制特定内型的出现。此外,治疗可能对每种内型的部分患者有所效果。

  1. 分子内分型在确定患者治疗反应可能性中的应用

作者将k-means聚类管道应用于GSE88884 ILL-2的患者,并确定了6种与联合试验数据集相似的内分型(图7A)。根据余弦相似度将内型重新分配到A-H(图7B)。通过SRI-5、更标准的SRI-4两个指标检查了对他贝芦单抗tabalumab的临床反应 (图7C, D)。通过SRI-5 (B [V2], F/H [V5]和G [V6])确定了三个反应组,通过SRI-4 (B [V2])确定了一个反应组。免疫活性最低的内型(A [V1])在两种指标下都没有反应。临床上,反应性内型在基线时以淋巴细胞减少为特征,包括更多服用硫唑嘌呤的患者、更多NAA/西班牙裔患者和更少的EA患者。在随后的52周SoC治疗中,反应性内啡肽型患者出现严重急性发作的可能性也趋于增加。

图7 内分型对更可能对治疗有反应的患者进行分层

  1. LuCIS在确定耀斑和治疗反应可能性方面的应用

最后作者确定了LuCIS值与临床特征之间是否存在关系。首先检查了GSE88884中LuCIS与抗dsDNA滴度、SLEDAI、血清C3和血清C4之间的相关性(图8A-D)。LuCIS与抗dsDNA滴度或SLEDAI之间存在正相关性,而与C3或C4之间存在负相关性。接下来使用LuCIS值定义的分组来预测ILL-2试验中斑块发生的可能性或对积极治疗的反应。根据患者的LuCIS值将患者分配到六分位,以反映聚类管道识别的组数。在ILL-2试验的事后分析中,LuCIS定义得到的亚群与严重斑块的可能性(图8E)和对研究产品的反应相关(图8F, G)。

图8 LuCIS值与临床变量、耀斑或临床反应的关系

文章小结

作者依据32个免疫和炎症相关特征来识别狼疮患者的分子内型,利用转录组学数据、机器学习(ML)和当代生物信息学,并开发了狼疮细胞和免疫评分(LuCIS)系统,以估计患者的狼疮相关免疫活性。这应该是第一个基于转录组学的分子内分型方法,具有分期和预后意义,有助于促进个性化医疗~

如果你还苦恼于生信分析没有思路,或者嫌分析方法太过简单、太过老套,想要创新思路的,或者对单细胞分析、多组学联合分析等方向感兴趣的小伙伴快来联系小云吧!

小云有话说

云生信公众号持续为大家带来最新生信思路,更多创新性分析思路请点击链接(加个往期文章链接)。想复现这种思路或者定制更多创新性思路欢迎直接call小云哦,我们团队竭诚为您的科研助力!