纯生信发一区12+,图还少,一看一个不吱声!分析工具开发+表观遗传视角,新idea更受期刊青睐!






纯生信发一区12+,图还少,一看一个不吱声!分析工具开发+表观遗传视角,新idea更受期刊青睐!

小途  生信果  2024-03-02 19:00:33

甲基化是一种生物化学过程,涉及将甲基基团添加到分子的某个部分,通常是DNA的胞嘧啶(C)碱基上。这一过程在生物学中具有重要意义,因为它可以改变DNA的结构和功能,从而影响基因的表达。相对于公共转录组数据的挖掘,甲基化数据相关的生信挖掘还很少。

作者从公共数据库收集了甲基化数据,抓住了这些少有人涉及的领域,开创了自己的生信挖掘发文套路。仅凭借公共数据库的数据,竟然发表了12+的顶级文章!ps:坚持和勇气将引领我们走向未知的辉煌,这就是我们追求的惊喜!)快坐稳,让小途带你一起揭开这篇高分甲基化文章的面纱……

作者选题的角度新颖,从甲基化入手进行分析,使用公共数据库中甲基化数据开发了CimpleG。这是一种用于寻找CpG甲基化的新颖方法。作者详细描述了CimpleG的计算分析、源代码编写、CpG签名的注释等方面的方法和技术。CimpleG为寻找CpG甲基化签名提供了一种新颖且有效的方法,为理解DNA甲基化在人类健康和疾病中的作用提供了新的视角。在小途看过的文献中,这篇文章的作者绝对属于在生信挖掘方面的高手,已经不满足于简单的生信套路,走上了开发算法的道路。对于不满足于传统生信分析套路的小伙伴,这篇文章的思路值得借鉴!你只需从这些公共数据库中获取所需的数据,选个新的角度,就能走出生信内卷!

(PS:没有思路、不知道怎么创新的宝子们,记得来找小途哦,超多个性化思路等你来拿!)

题目:CimpleG:寻找简单的 CpG 甲基化特征

杂志:GENOME BIOLOGY

影响因子:IF=12.3

发表时间:20237

研究背景

DNA甲基化(DNAm)与染色质结构、细胞分化有关,并控制基因表达。由于其稳定性和准确性,DNAm成为预测年龄和癌症分层的强大分子标记,并可用于细胞类型表征和细胞解卷积。Illumina BeadChips可测量多达850,000CpG位点的DNAm图谱,但多CpG整合可能阻碍临床应用。单个CpG的靶向分析可能更有利。DNAm特征的检测通常使用统计测试,例如弹性网,深度学习方法等。有几种专注于基于参考的细胞反卷积问题的方法,例如使用t统计、非线性随机效应模型等。尽管这些方法在细胞反卷积和DNAm特征预测方面成功,但缺乏适合选择小DNAm特征的计算方法。最近的研究描述了使用少数CpG位点进行细胞类型反卷积,并提出了名为CimpleG的计算框架,用于检测小CpG甲基化特征,适用于细胞类型分类和细胞混合物反卷积。

数据来源

数据集/队列

数据库

数据类型

详细信息

GSE103253

GEO

甲基化数据

245例患者

GSE107226

GEO

甲基化数据

12例患者

GSE40699

GEO

甲基化数据

62例患者

GSE41933

GEO

甲基化数据

12例患者

GSE43976

GEO

甲基化数据

95例患者

研究思路

文章的研究思路主要集中在通过IDOL的训练过程来选择和优化DNAm签名的探针,分为两个步骤:首先基于数据对比进行t检验选择候选探针,然后通过迭代方法优化探针选择,解决细胞混合去卷积问题。此外,还涉及DNAm签名的精炼,使用人工混合的12种不同细胞类型的数据,并与纯化的白细胞数据进行相同的预处理。执行时间方面,IDOL的优化步骤可能较长,与CimpleG.10相比,执行时间明显不同。文章还探讨了EpiDISH方法,一种专门针对细胞混合去卷积问题的方法,利用DNAse敏感位点的信息和其他纯化血细胞数据进行去卷积。这些步骤和方法共同构成了一种综合的研究方法,涵盖了候选探针的选择、迭代优化、混合数据集的使用、不同算法的比较和执行时间的分析等多个方面。

主要结果

1. CimpleG框架

CimpleG是一个计算框架,用于选择用于细胞类型分类的DNAm特征(图 1 A)。该框架使用t统计分数和精确召回曲线 (AUPR) 下的面积来进行特征选择,以解决DNAm细胞分类问题中类别的高度不平衡。CimpleG还结合分数和AUPR值来选择最佳候选CpG位点,并构建单变量细胞类型特异性分类器和细胞反卷积(图 1 A)。它还支持替代特征选择和分类方法,例如随机森林、弹性网络和提升树 (XGBoost)

CimpleG还提供了两个精心策划和预处理的DNAm数据集,包括14种体细胞类型和8种不同白细胞的DNAm阵列概要(图 1 B-C)。这些数据集包括576个和365个样本,具有143,291284,706CpG位点,并进行了独立预处理以避免泄漏预处理。主成分分析显示主要细胞类型之间存在分离,而密切相关的细胞则需要附加PC进行区分(图1 B-C)。

1 CimpleG框架

2. 细胞类型预测问题的基准测试

CimpleG与其他生成表观遗传特征的方法进行了比较,包括决策树、随机森林、提升树、神经网络和弹性网络。一些模型由于高维特征大小而无法应对数据集,因此执行了无监督特征选择作为预训练步骤。通过交叉验证框架优化了所有方法的参数,并评估了分类性能、计算时间和每个模型使用的特征数量。

在体细胞和白细胞数据集上,Elastic NetCimpleGCimpleG(分数)具有最高的中值AUPR(图 2 A-B),表明这些是性能最好的模型。这些方法在正样本数量上具有稳定的AUPR值,表明它们对于少量正样本而言具有稳健性。关于计算时间,CimpleG平均需要55.3秒,Elastic Net平均需要37.6分钟,而暴力算法平均需要6.61小时来生成签名(图 2 C-D)。这些结果表明这三种方法在基于DNAm的细胞分类问题中表现同样出色,而CimpleG为特征选择问题提供了显着的加速。ps不会作图怎么办?可以使用我们新开发的零代码生信分析小工具实现,云生信分析工具平台包含超多零代码分析和绘图小工具,上传数据一键出图,感兴趣的小伙伴欢迎来尝试哟,网址:http://www.biocloudservice.com/home.html)。

2 细胞类型预测问题的基准测试

3. DNA甲基化位点的选择

Elastic Net选择了最大数量的特征,其中白细胞的所有六个模型中有3378个独特特征(图3A),体细胞的所有十个模型中有2345个独特特征。单特征分类器(CimpleGBrute force)为体细胞和白细胞数据选择了总共10个和6DNAm位点。CimpleG选择的所有16DNAm也是Elastic Net选择的DNAm位点的一部分。

观察CimpleG生成的特定特征也很有趣(图3B-G),因为这些基因组位置可以提供对细胞本身的生物学洞察。例如,选择靠近CD4cg05044173,图3C)和CD8cg04329870,图3D)基因的DNAm位点作为CD4+CD8+T细胞的标记,以及选择体内的LIPE(脂肪酶E,激素敏感型)作为脂肪细胞的标记物的DNAm站点(cg01537765)。还选择了上皮间质转化相关转录因子TWIST1启动子中的CpGcg10624122作为间充质干细胞的标记,以及其他与具有细胞特异性表达模式的基因接近的CpG

最后,值得注意的是,在白细胞数据中使用的一些样本来自脐带血或非健康样本,但在分析中,没有任何协变量会影响CimpleG导出的签名的DNAm值。

3 DNA甲基化位点的选择

4. 细胞类型反卷积问题的基准测试

我们评估了白细胞中细胞反卷积问题的DNAm特征和模型预测,使用了不同的方法和算法。在考虑主要白细胞的反卷积问题时,IDOL具有最高排名,其次是具有10CpGCimpleGminfi(图4)。在基于小签名的方法中,CimpleGRMSE通常低于竞争方法。我们还在两个人工混合数据集上评估了一系列方法,其中IDOL获得了最低的RMSE,其次是具有10CpGCimpleG,每种细胞类型具有单个CpGCimpleG获得了最低的平均RMSECimpleG仅需要12个位点,而其他方法需要更多的DNAm位点。CimpleG所需的DNAm位点比性能最佳的方法IDOLCimpleG.10minfi至少少10倍。总的来说,CimpleG是一种有竞争力的细胞反卷积方法,同时也是小特征的最佳执行方法。

4 细胞类型反卷积问题的基准测试

文章小结

这篇文章从甲基化角度出发,构建了CimpleG的计算框架,用于检测小型CpG甲基化特征,特别是在细胞类型分类和细胞混合物反卷积方面。CimpleG一种新颖的方法,通过将t统计量与精确召回曲线下面积(AUPR)相结合,使用单变量特征选择来选择用于细胞类型分类的最佳DNAm位点。与现有的IDOLEpiDISH方法相比,CimpleG在执行时间和准确性方面表现出色。此外,CimpleG的灵活性和效率使其适用于需要快速、标准化和经济高效分析的临床环境。总的来说,CimpleG的创新性在于其独特的计算方法和广泛的应用潜力,为寻找和利用CpG甲基化签名提供了新的视角和工具。果然突破生信内卷的办法就是从算法出发,作者的代码和算法功力扎实,还从少有人涉及的甲基化出发,能发12+的文章可谓是实至名归。在这些算法的基础上加以改进,文章的创新性很高,高分期刊的认可度也高。在算法上有一些基础的小伙伴们赶紧学起来吧!(如果你还不知道如何将改进算法,或者没有思路,就赶紧扫描下方二维码来咨询小途吧!)

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果


往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!