2024-06-16

答应我，一定要看！基因差异表达——调控生物发育的神秘机制！使用BaySeq包带你探索基因差异表达的奥秘！！

原创小果生信果 2024-04-20 19:01:00

小果相信勤奋好学的你一定思考过一个问题，那就是共用一套遗传信息的干细胞为什么可以分化成多种不同的细胞呢？其实呢，这是因为相同基因在不同环境中的差异化表达所导致的。要知道，研究基因差异表达可以帮助我们深入了解基因调控和功能，揭示疾病的发病机制，发现新的生物标志物，并为个性化医学和药物研发提供重要的信息和线索。今天，就让小果带你使用BaySeq包解开基因差异表达的神秘面纱吧！

本次介绍的R包在服务器可以更加方便运行，如果没有自己的服务器欢迎联系我们使用服务器租赁~

公众号后台回复“111”

领取本篇代码、基因集或示例数据等文件

文件编号：240416

需要租赁服务器的小伙伴可以扫码添加小果，此外小果还提供生信分析，思路设计，文献复现等，有需要的小伙伴欢迎来撩~

BaySeq包介绍

BaySeq是一个用于RNA-seq数据分析的R包，采用贝叶斯统计学方法。其主要功能包括识别差异表达基因，考虑技术和生物学重复，并提供灵活的模型参数选择。该包还提供可视化工具，帮助用户理解分析结果。BaySeq在处理小样本RNA-seq数据时特别有用，因为它可以处理不确定性，并提供更准确的差异表达基因识别。

BaySeq包安装

需要R语言版本为4.3，在控制台中输入以下命令：

if (!require("BiocManager", quietly = TRUE))    install.packages("BiocManager")BiocManager::install("baySeq") # 在BiocManager环境下安装baySeq查看是否安装成功packageVersion("baySeq") # 查看baySeq版本

显示为2.36.0版本，则表示安装成功。

基因差异表达分析示例

载入BaySeq包：

library(baySeq) # 载入baySeq包

值得注意的是，由于baySeq被设计用于分析的实验数据量通常较大，我们可以使用parallel包来实现并行处理。使用parallel包，并定义一个cluster，如果不存在parallel包，我们可以使用NULL cluster进行操作。代码如下：

if(require("parallel")) cl <- makeCluster(4) else cl <- NULL # 定义一个cluster来实现并行处理，从而优化分析速度。

我们随机模拟了一个由计数数据组成的模拟数据集，共一千行，十列，合计共一万个计数。

数据准备：

data(simData) # 载入模拟数据集simData[1:10,] # 显示模拟数据前十行。

显示如图所示：

模拟数据中前100个计数显示前5个库与后5个库之间的差异表达，因此用于估计数据上的先验分布（prior distributions）的复制结构可以分别定义为simA和simB。

replicates <- c("simA", "simA", "simA", "simA", "simA", "simB", "simB", "simB", "simB", "simB") # 定义复制结构名称

按照’NDE’ model和model ’DE要求对数据进行分组。

groups <- list(NDE = c(1,1,1,1,1,1,1,1,1,1), + DE = c(1,1,1,1,1,2,2,2,2,2)) # 分组并加上标签

将计数数据和用户自定义的组，组合成一个countData对象。

CD <- new("countData", data = simData, replicates = replicates, groups = groups) # 把需要的数据组合为类型为countData的新的数据结构。libsizes(CD) <- getLibsizes(CD) #获取数据的规模

将数据绘制成MA图的形式，来更直观的显示基因的差异表达情况，通过将这些数据染成红色，可以在图中识别出真正的差异表达数据，而非差异表达数据则被染成黑色。

plotMA.CD(CD, samplesA = "simA", samplesB = "simB", + col = c(rep("red", 100), rep("black", 900))) # 绘制MA图

MA图结果如下图所示：

‘ MA ‘ – plot是计数数据展示的图表，因为其中一个样本组中的数据完全由零组成，部分对数将是无穷的，我们将用另一组的log值代替。真正差异表达的数据被染成红色，而非差异表达的数据被染成黑色。

我们可以在count Data对象的@annotation中添加标注详细信息。

CD@annotation <- data.frame(name = paste("count", 1:1000, sep = "_")) #添加注释信息

差异表达分析：

我们根据从数据自展采取的个体计数以及寻找负二项分布的拟似然参数，来估计负二项分布参数的经验分布。通过取足够大的样本，估计了参数的先验分布。根据数据量，建议样本量约为10000次迭代，但这里使用1000次迭代来快速生成图和表以进行演示。

CD <- getPriors.NB(CD, samplesize = 1000, estimation = "QL", cl = cl) # 获得负二项分布的先验分布

然后，我们在先验分布的基础上获得后验似然，估计差异表达计数的比例。

CD <- getLikelihoods(CD, cl = cl, bootStraps = 3, verbose = FALSE) # 获得后验似然，估计差异表达计数的比例

接下来，我们可以通过top Counts函数来寻找差异表达可能性较大的序列。

topCounts(CD, group = "DE") # 显示差异表达序列

结果如下图所示

我们可以使用plotPosteriors函数根据两组样本的对数来绘制后验似然度（posterior likelihoods），将真正差异表达的数据着色为红色，非差异表达的数据着色为黑色

plotPosteriors(CD, group = "DE", col = c(rep("red", 100), rep("black", 900))) # 绘制差异表达图像

结果如图所示：

图中，对于差异表达的后验似然值对数，其中一个样本组中的数据完全由零组成，部分对数将是无穷的，我们将用另一组的对数值代替。真正差异表达的数据被染成红色，而非差异表达的数据被染成黑色。

以上就是使用BaySeq包进行基因差异化表达分析的全部过程了，同学们可以多加练习，举一反三，把学到的知识运用到自己的课题分析中。通过BaySeq包的使用，我们可以更深入地理解基因差异表达背后的机制，从而为生命科学研究提供更多的启示，让我们继续探索基因的奥秘，为科学的进步贡献我们的力量吧！

同学们如果觉得写代码麻烦可以体验我们的云生信小工具，同学们只需输入数据，即可轻松生成所需图表。立即访问云生信

（http://www.biocloudservice.com/home.html），开启便捷的生信之旅！

小果还提供思路设计、定制生信分析、文献思路复现；有需要的小伙伴欢迎直接扫码咨询小果，竭诚为您的科研助力！

定制生信分析

服务器租赁

扫码咨询小果

往期回顾

｜1024G存储的生信服务器，两人成团，1人免单！

｜单个数据库用腻了？多数据库“组合拳”带你打开免疫浸润新思路！

｜孟德尔随机化的准备工作，GWAS数据的网站下载方法

｜跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析（PCA）图！！

答应我，一定要看！基因差异表达——调控生物发育的神秘机制！使用BaySeq包带你探索基因差异表达的奥秘！！

答应我，一定要看！基因差异表达——调控生物发育的神秘机制！使用BaySeq包带你探索基因差异表达的奥秘！！

推荐阅读

Linux 常用命令

R4.4.1 已安装R包列表

☆☆slurm必读☆☆