一看就懂小果带你探索GEO数据库的奥秘(二)

一看就懂小果带你探索GEO数据库的奥秘(二)

在上一篇文章中,小果已经带领小伙伴们对GEO数据库进行了简单的探索,我们主要探索了检索方式,筛选数据,数据集的简单介绍,如果还没有查看的小伙伴请先移步查看上一篇文章哦。今天小果带大家继续探索数据集的具体信息,每一个数据集里面到底都有什么信息内容呢,接下来就跟着小果的步伐一起来探索一下吧。

今天小果用GSE49832数据集进行介绍,小果把网址放这啦,https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE49832,如图所示。

接下来就由小果带大家对以上数据信息做一步步的探索吧。

  1. 数据集信息介绍

首先我们看到的是对于这个数据集的基本介绍,我们会通过这一部分的信息来选择数据集。最基本的需要确定的就是:疾病分组、所用物种以及测序类型,如图所示。

1686752965657

  1. 数据集作者信息

接下来我们就看到的是作者的一些信息,在这里小果建议看一下该作者之前用这个数据集做了哪些方面的研究,了解发表的文献及创新点即可。

  1. 数据集平台

再往下走我们看到的就是数据集所有的平台,我们可以得知数据集是用哪个公司哪种检测技术来做的。例如小果的举例所示,就是使用Illumina HiSeq 2000平台进行的人类基因组的高通量测序。Illumina HiSeq 2000是一种常用的高通量测序平台,能够同时测序多个样本,并生成大量的DNA或RNA序列数据。在这个特定的例子中,该测序平台被用于对人类基因组进行测序,即对人类个体的基因组DNA进行测序分析。这种测序数据可以用于研究人类基因组的遗传变异、基因表达、基因调控等方面的信息。

四.数据集样本信息

跟着小果的步伐我们继续往下看,接下来看到的就是样本信息了,在这里呢每一个数据集都会包括很多个样本。对于每个样本的基本信息我们都可以进行查看。小果在这里重点说一下对于GEO的数据而言,GSE开打头的是数据集,GSM打头的呢就是数据集里面的一个样本啦。

五.数据集原始数据下载

这一部分就是为我们提供原始的数据,一般来讲我们只需要下载矩阵文件即可,如下图小果标注所示,但如果需要最原始的数据的话,我们就需要下载补充文件就可以了,小果也在图中标注出来了。

六.数据集矩阵文件

我们点击上图中矩阵文件,然后再点击下图箭头所示文件,就可以下载数据啦。

下载矩阵文件后,我们解压之后用excel打开,打开之后我们可以看到三种信息,小果来给大家例举出图片。

  1. 数据集的信息,此种信息以Series开头

  1. 样本的信息,此种信息以sample开头

  1. ID信息,每一个ID在样本之间的表达信息

GEO数据库中的原始数据提供了大量的基因表达和基因组学数据,可以用于各种数据挖掘和分析研究。研究人员可以使用这些数据来寻找新的生物学洞见、发现新的基因调控机制,并进行生物信息学分析和建模等。GEO数据库中的原始数据为生命科学研究提供了宝贵的资源和工具,可以帮助研究人员深入探索基因表达、基因调控、疾病机制等方面的知识。

好了对于GEO数据库的探索到这里就算结束了,小伙伴们有没有通过这两篇文章对GEO数据库有有了更深刻的认识呢,记得及时跟小果反馈哦,那我们今天的分享就到这里啦,小伙伴们再会!