1个月接收不是梦!单细胞+机器学习强强联手,山西医科大学等单位全新视角快速发文!做完就毕业!






1个月接收不是梦!单细胞+机器学习强强联手,山西医科大学等单位全新视角快速发文!做完就毕业!

小途  生信果  2024-04-05 19:01:56

机器学习(ML)是让计算机像人类一样学习和行动的科学,通过以观察和现实世界互动的形式向他们提供数据和信息,以自主的方式改善他们的学习。在人工智能方面处于核心地位的机器学习,在生信领域同样有着巨大的应用前景。
今天小途跟小伙伴们分享一篇应用单细胞测序与机器学习,投稿一个月接收的好文!阐明了免疫系统与糖尿病肾病(DN)发病机制之间的复杂关系,从免疫学角度为DN的发病机制提供了新的视角,并为未来针对DN的药物开发提供了潜在靶点。话不多说,快跟紧小途的步伐,学习快速发文的有效套路 ~(ps:本文主打一个接收快,实在是毕业神方向(当然,期刊也给力),对周期要求高的小伙伴可以多多尝试!如果对复现有技术难度,可以直接扫码戳小途哦~)。

l题目:单细胞RNA-Seq和整体RNA-Seq结合多重机器学习的综合分析鉴定了糖尿病肾病的一种新的免疫特征
l杂志:Diabetes, Metabolic Syndrome and Obesity
l发表时间:2023年7月    

研究背景
从实验和临床研究中积累的证据表明,免疫系统在DN的发生和进展中起着至关重要的作用。糖尿病肾脏中发生的免疫反应是慢性应激和糖尿病肾脏损伤的预期结果,未能充分控制高血糖导致持续炎症的发展。DN中失调的免疫反应表现为细胞因子、趋化因子和粘附分子表达的改变,以及巨噬细胞、T细胞和B细胞等免疫细胞激活或功能异常。然而,免疫调节在DN中的作用尚未阐明,本研究的目的是寻找DN的潜在免疫相关治疗靶点和分子机制。
数据来源
数据集/队列
数据库
数据类型
详细信息
                    
ImmPort
免疫相关基因数据
1793个
GSE142025
GEO
RNA-seq数据
9个正常样本,6个早期DN样本,13个晚期DN样本
GSE47183
GEO
RNA-seq数据
14个正常DN和7个DN样本
GSE30528
GEO
RNA-seq数据
12个正常DN和10个DN样本
GSE131882
GEO
RNA-seq数据
3名健康个体和3名DN患者
研究思路
作者从GEO数据库中获取基因表达数据集,对GSE142025进行加权基因共表达网络分析(WGCNA),发现红色和绿松石色共表达模块是DN进展的关键。利用随机森林(RF)、支持向量机(SVM)、自适应增强(AdaBoost)和k近邻(KNN)四种机器学习算法来评估轮毂基因的诊断价值。利用CIBERSORT算法分析免疫浸润模式,并研究免疫细胞类型丰度与枢纽基因表达的相关性。    
图1 研究思路图
主要结果
1、加权共表达网络的构建与关键模块的识别
软阈值为11时,获得最高的无标度拓扑模型拟合指数和最低的平均连通性(图2A)。然后采用分层聚类的方法,将表达相似的基因分组到同一模块中,合并相似度高的模块,最终得到14个合格的模块(图2B)。模块-性状关系热图显示,与其他模块相比,绿松石模块和红色模块与DN晚期的正相关性更高,说明绿松石和红色模块中的基因可能在DN向晚期进展中发挥了重要作用。因此,绿松石和红色模块被确定为最具临床意义的模块,并用于后续分析。    
图2 加权共表达网络的构建与关键模块的识别
          
2、GO和KEGG通路富集分析
根据GO分析,生物过程主要富集于免疫系统过程、免疫反应和细胞活化(图3A)。细胞成分主要富集于质膜部分、质膜固有成分和质膜整体成分(图3B)。在分子功能类别中,绿松石和红色模块中的基因主要与分子换能器活性、信号受体活性和GTPase调节剂活性相关(图3C)。KEGG分析结果显示,这些基因与趋化因子信号通路、细胞因子-细胞因子受体相互作用、t细胞受体信号通路有显著相关性(图3D)。上述结果表明,免疫相关功能与绿松石和红色模块中的基因密切相关。    
图3 GO和KEGG通路富集分析
          
3、关键基因的鉴定与验证
作者提取了绿松石色和红色模块中的77个免疫相关基因,并将它们与GSE30528中的DEGs相交(图4A)。最后,共鉴定出10个枢纽基因。接下来,在GSE30529和Nephroseq数据库中进行验证,以探索这些中心基因在不同糖尿病人群样本中的表达模式,发现枢纽基因GSE30529和Nephroseq的mRNA表达也高于正常样本,与GSE30528的结果一致(图4B和C)。采用RT-qPCR分析正常、DN和chaga处理组大鼠肾脏mRNA表达水平,结果显示与正常对照组相比,DN组9个hub基因的表达水平显著上调,chaga处理组的基因表达水平几乎恢复到正常水平(图4D)。TLR7及其下游基因MyD88、NF-κB在各组间的表达趋势一致。结果证明了生物信息学分析的可靠性,并提示这些基因可能是阻止DN进展的潜在靶点。    
   
图4 枢纽基因的鉴定与验证
              
4、创建随机森林模型(RF),支持向量机(SVM),自适应增强(AdaBoost)和k-最近邻(KNN)模型
采用RF、SVM、AdaBoost和KNN评价基于枢纽基因的免疫特征在诊断DN发生发展中的价值。GSE30528作为训练模型,GSE30529和GSE47183作为测试模型(图5A)。进一步检验基尼系数技术,排序前4位基因顺序为LCK、CD3D、TLR7、IL7R(图5B)。通过5次交叉验证建立了四种机器学习模型(图5C和D)。根据交叉验证检验集数据绘制ROC曲线,直观显示四种机器学习模型的诊断预测值。在两个验证集中,GSE30529和GSE47183, RF模型的AUC更高,优于SVM、AdaBoost和KNN模型,在区分DN组和正常对照组方面表现出更高的性能。研究结果表明,免疫标记可以有效地区分DN患者和健康对照,同时也显示出预测DN进展的潜力。    
图5 创建随机森林模型(RF),支持向量机(SVM),自适应增强(AdaBoost)和k-最近邻(KNN)模型
          
5、基于整体序列分析和单细胞序列分析的免疫浸润模式
进一步对GSE142025和GSE30529进行CIBERSORT算法,以探索可能参与DN发生和发展的免疫细胞类型。每个样本中免疫细胞亚型的丰度如图6A和B所示。在GSE142025(图6C)中,与正常样本相比,晚期DN的NK细胞活化和巨噬细胞的比例降低,但CD8、CD4、NK细胞、巨噬细胞m2和休息肥大细胞的比例增加。在GSE30529中(图6D),与正常组相比,DN组检测到T细胞调节性、NK细胞静止和肥大细胞激活的比例降低,但浆细胞、T细胞γ δ、单核细胞、巨噬ges_m1、巨噬ges_m2和肥大细胞静止的比例增加。


       
图6 基于整体序列分析和单细胞序列分析的免疫浸润模式
         
使用单细胞测序数据集GSE131882分析了DN的免疫微环境。根据CellMarker数据库和scHCL,作者鉴定了18个细胞簇,并将18个细胞簇标注为13个细胞群 (图7A和B)。每个细胞簇的细胞比例如图7C所示。在DN样本中检测到高比例的免疫细胞簇(B细胞、单核细胞和自然杀伤T细胞)。使用R包CellChat进一步研究活化足细胞与免疫细胞之间的通讯,推断相互作用的总数和细胞通讯强度在DN样品中增强(图7D)。足细胞与单核细胞和自然杀伤T细胞的相互作用强度增强,但足细胞与B细胞的相互作用强度降低(图7E)所示。作者构建了正常和DN样本中三种免疫细胞类型和足细胞的通路图,显示DN样品足细胞与免疫细胞之间的通讯通路明显增加(图7G)。              
图7 基于整体序列分析和单细胞序列分析的免疫浸润模式
              
6、中枢基因靶向药物的预测
DGIdb共鉴定出102种可能靶向枢纽基因的分子药物。其中52个靶向LCK, 7个靶向CD3D, 19个靶向ITGB2, 12个靶向TLR7, 12个靶向PTPRC,但没有发现靶向CD48、IL10RA、IL7R、CCL5或LYZ的候选药物。
图8 中枢基因靶向药物的预测
          
文章小结
看完这篇文章,小伙伴们有没有跃跃欲试?作者使用WGCNA结合单细胞测序结果分析转录组数据,并应用了四种机器学习方法来评估轮毂基因的诊断价值,揭示了DN与正常人样本之间免疫相关基因表达和免疫细胞浸润模式的差异。贴近临床获得审稿人的青睐,同时利用生信+实验相结合的方法,既节约了一定的时间还省去了一大笔经费,又筛选相关药物丰富文章。心动不如行动,临床方向的伙伴们快冲呀,学习类似的套路,一个月发文不是梦!(PS:想要获得更多新鲜思路与素材的伙伴们,小途等待你们的召唤,思路设计、生信分析都可以扫码call我哟~)    
小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!

定制生信分析

服务器租赁

扫码咨询小果


往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!