2024-06-16

纯生信发一区12+，图还少，一看一个不吱声！分析工具开发+表观遗传视角，新idea更受期刊青睐！

小途生信果 2024-03-02 19:00:33

转自公众号：生信路
http://mp.weixin.qq.com/s?__biz=Mzk0MDQ2MTU0Mg==&mid=2247493129&idx=1&sn=a68c50711a2e6b8d2a1d34729083a60c

甲基化是一种生物化学过程，涉及将甲基基团添加到分子的某个部分，通常是DNA的胞嘧啶（C）碱基上。这一过程在生物学中具有重要意义，因为它可以改变DNA的结构和功能，从而影响基因的表达。相对于公共转录组数据的挖掘，甲基化数据相关的生信挖掘还很少。

作者从公共数据库收集了甲基化数据，抓住了这些少有人涉及的领域，开创了自己的生信挖掘发文套路。仅凭借公共数据库的数据，竟然发表了12分+的顶级文章！（ps：坚持和勇气将引领我们走向未知的辉煌，这就是我们追求的惊喜！）快坐稳，让小途带你一起揭开这篇高分甲基化文章的面纱……

作者选题的角度新颖，从甲基化入手进行分析，使用公共数据库中甲基化数据开发了CimpleG。这是一种用于寻找CpG甲基化的新颖方法。作者详细描述了CimpleG的计算分析、源代码编写、CpG签名的注释等方面的方法和技术。CimpleG为寻找CpG甲基化签名提供了一种新颖且有效的方法，为理解DNA甲基化在人类健康和疾病中的作用提供了新的视角。在小途看过的文献中，这篇文章的作者绝对属于在生信挖掘方面的高手，已经不满足于简单的生信套路，走上了开发算法的道路。对于不满足于传统生信分析套路的小伙伴，这篇文章的思路值得借鉴！你只需从这些公共数据库中获取所需的数据，选个新的角度，就能走出生信内卷！

（PS：没有思路、不知道怎么创新的宝子们，记得来找小途哦，超多个性化思路等你来拿！）

题目：CimpleG：寻找简单的 CpG 甲基化特征

杂志：GENOME BIOLOGY

影响因子：IF=12.3

发表时间：2023年7月

研究背景

DNA甲基化（DNAm）与染色质结构、细胞分化有关，并控制基因表达。由于其稳定性和准确性，DNAm成为预测年龄和癌症分层的强大分子标记，并可用于细胞类型表征和细胞解卷积。Illumina BeadChips可测量多达850,000个CpG位点的DNAm图谱，但多CpG整合可能阻碍临床应用。单个CpG的靶向分析可能更有利。DNAm特征的检测通常使用统计测试，例如弹性网，深度学习方法等。有几种专注于基于参考的细胞反卷积问题的方法，例如使用t统计、非线性随机效应模型等。尽管这些方法在细胞反卷积和DNAm特征预测方面成功，但缺乏适合选择小DNAm特征的计算方法。最近的研究描述了使用少数CpG位点进行细胞类型反卷积，并提出了名为CimpleG的计算框架，用于检测小CpG甲基化特征，适用于细胞类型分类和细胞混合物反卷积。

数据来源

数据集/队列	数据库	数据类型	详细信息
GSE103253	GEO	甲基化数据	245例患者
GSE107226	GEO	甲基化数据	12例患者
GSE40699	GEO	甲基化数据	62例患者
GSE41933	GEO	甲基化数据	12例患者
GSE43976	GEO	甲基化数据	95例患者

研究思路

文章的研究思路主要集中在通过IDOL的训练过程来选择和优化DNAm签名的探针，分为两个步骤：首先基于数据对比进行t检验选择候选探针，然后通过迭代方法优化探针选择，解决细胞混合去卷积问题。此外，还涉及DNAm签名的精炼，使用人工混合的12种不同细胞类型的数据，并与纯化的白细胞数据进行相同的预处理。执行时间方面，IDOL的优化步骤可能较长，与CimpleG.10相比，执行时间明显不同。文章还探讨了EpiDISH方法，一种专门针对细胞混合去卷积问题的方法，利用DNAse敏感位点的信息和其他纯化血细胞数据进行去卷积。这些步骤和方法共同构成了一种综合的研究方法，涵盖了候选探针的选择、迭代优化、混合数据集的使用、不同算法的比较和执行时间的分析等多个方面。

主要结果

1. CimpleG框架

CimpleG是一个计算框架，用于选择用于细胞类型分类的DNAm特征（图 1 A）。该框架使用t统计分数和精确召回曲线 (AUPR) 下的面积来进行特征选择，以解决DNAm细胞分类问题中类别的高度不平衡。CimpleG还结合分数和AUPR值来选择最佳候选CpG位点，并构建单变量细胞类型特异性分类器和细胞反卷积（图 1 A）。它还支持替代特征选择和分类方法，例如随机森林、弹性网络和提升树 (XGBoost)。

CimpleG还提供了两个精心策划和预处理的DNAm数据集，包括14种体细胞类型和8种不同白细胞的DNAm阵列概要（图 1 B-C）。这些数据集包括576个和365个样本，具有143,291和284,706个CpG位点，并进行了独立预处理以避免泄漏预处理。主成分分析显示主要细胞类型之间存在分离，而密切相关的细胞则需要附加PC进行区分（图1 B-C）。

图1 CimpleG框架

2. 细胞类型预测问题的基准测试

CimpleG与其他生成表观遗传特征的方法进行了比较，包括决策树、随机森林、提升树、神经网络和弹性网络。一些模型由于高维特征大小而无法应对数据集，因此执行了无监督特征选择作为预训练步骤。通过交叉验证框架优化了所有方法的参数，并评估了分类性能、计算时间和每个模型使用的特征数量。

在体细胞和白细胞数据集上，Elastic Net、CimpleG和CimpleG（分数）具有最高的中值AUPR（图 2 A-B），表明这些是性能最好的模型。这些方法在正样本数量上具有稳定的AUPR值，表明它们对于少量正样本而言具有稳健性。关于计算时间，CimpleG平均需要55.3秒，Elastic Net平均需要37.6分钟，而暴力算法平均需要6.61小时来生成签名（图 2 C-D）。这些结果表明这三种方法在基于DNAm的细胞分类问题中表现同样出色，而CimpleG为特征选择问题提供了显着的加速。（ps：不会作图怎么办？可以使用我们新开发的零代码生信分析小工具实现，云生信分析工具平台包含超多零代码分析和绘图小工具，上传数据一键出图，感兴趣的小伙伴欢迎来尝试哟，网址：http://www.biocloudservice.com/home.html）。

图2 细胞类型预测问题的基准测试

3. DNA甲基化位点的选择

Elastic Net选择了最大数量的特征，其中白细胞的所有六个模型中有3378个独特特征（图3A），体细胞的所有十个模型中有2345个独特特征。单特征分类器（CimpleG和Brute force）为体细胞和白细胞数据选择了总共10个和6个DNAm位点。CimpleG选择的所有16个DNAm也是Elastic Net选择的DNAm位点的一部分。

观察CimpleG生成的特定特征也很有趣（图3B-G），因为这些基因组位置可以提供对细胞本身的生物学洞察。例如，选择靠近CD4（cg05044173，图3C）和CD8（cg04329870，图3D）基因的DNAm位点作为CD4+和CD8+T细胞的标记，以及选择体内的LIPE（脂肪酶E，激素敏感型）作为脂肪细胞的标记物的DNAm站点（cg01537765）。还选择了上皮间质转化相关转录因子TWIST1启动子中的CpG（cg10624122）作为间充质干细胞的标记，以及其他与具有细胞特异性表达模式的基因接近的CpG。

最后，值得注意的是，在白细胞数据中使用的一些样本来自脐带血或非健康样本，但在分析中，没有任何协变量会影响CimpleG导出的签名的DNAm值。

图3 DNA甲基化位点的选择

4. 细胞类型反卷积问题的基准测试

我们评估了白细胞中细胞反卷积问题的DNAm特征和模型预测，使用了不同的方法和算法。在考虑主要白细胞的反卷积问题时，IDOL具有最高排名，其次是具有10个CpG的CimpleG和minfi（图4）。在基于小签名的方法中，CimpleG的RMSE通常低于竞争方法。我们还在两个人工混合数据集上评估了一系列方法，其中IDOL获得了最低的RMSE，其次是具有10个CpG的CimpleG，每种细胞类型具有单个CpG的CimpleG获得了最低的平均RMSE。CimpleG仅需要12个位点，而其他方法需要更多的DNAm位点。CimpleG所需的DNAm位点比性能最佳的方法IDOL、CimpleG.10和minfi至少少10倍。总的来说，CimpleG是一种有竞争力的细胞反卷积方法，同时也是小特征的最佳执行方法。

图4 细胞类型反卷积问题的基准测试

文章小结

这篇文章从甲基化角度出发，构建了CimpleG的计算框架，用于检测小型CpG甲基化特征，特别是在细胞类型分类和细胞混合物反卷积方面。CimpleG是一种新颖的方法，通过将t统计量与精确召回曲线下面积（AUPR）相结合，使用单变量特征选择来选择用于细胞类型分类的最佳DNAm位点。与现有的IDOL和EpiDISH方法相比，CimpleG在执行时间和准确性方面表现出色。此外，CimpleG的灵活性和效率使其适用于需要快速、标准化和经济高效分析的临床环境。总的来说，CimpleG的创新性在于其独特的计算方法和广泛的应用潜力，为寻找和利用CpG甲基化签名提供了新的视角和工具。果然突破生信内卷的办法就是从算法出发，作者的代码和算法功力扎实，还从少有人涉及的甲基化出发，能发12分+的文章可谓是实至名归。在这些算法的基础上加以改进，文章的创新性很高，高分期刊的认可度也高。在算法上有一些基础的小伙伴们赶紧学起来吧！（如果你还不知道如何将改进算法，或者没有思路，就赶紧扫描下方二维码来咨询小途吧！）