一看就懂小果带你探索GEO数据库的奥秘(一)
学习生信的小伙伴应该都接触或者听说过GEO数据库,小果就经常跟它打交道,GEO数据库是基因表达谱数据库之一,全称为Gene Expression Omnibus数据库。它是由美国国家生物技术信息中心(NCBI)创建和维护的一个公共数据库,旨在存储和共享基因表达数据。该数据库包含了来自各种生物样本的数百万条基因表达数据,包括DNA芯片、RNA测序和蛋白质组学等数据。这些数据可以被科学家们用于研究基因表达的调控机制、疾病发生机制以及药物研发等方面。也包括来自二代测序和其他高通量测序技术的数据。这些数据可以帮助研究人员了解基因表达、基因调控、基因变异和基因功能等方面的信息。总的来说GEO数据库是一个非常有用的资源,对于生命科学研究具有重要的意义。
GEO数据库中既然有这么多数据信息,那我们该如何寻找并挑选出我们想要的数据呢,那么接下来就由小果带大家一起来探索一下吧。
一.如何检索
方法一:登陆网址https://www.ncbi.nlm.nih.gov/geo/,直接在搜索框搜索即可,如下图小果标注箭头所示。
方法二:通过NCBI首页https://www.ncbi.nlm.nih.gov/,然后在All Databases下拉框中选择GEO DataSets,输入关键词搜索,如下图小果标注箭头所示。
二.检索结果介绍
小果这里以检索肺癌(lung cancer)的数据为例,来给大家做详细的讲解。
如下图所示,是我们检索lung cancer之后的界面。
在此页面我们可以根据自己的需求进行一些进一步的筛选,小果给大家举几个常用的例子。
(1)在样本类型当中寻找想要获取的物种,如图所示。
(2)在 Study Type当中来选择合适的数据类型,如图所示。
(3)一般来说我们的检索在寻找目标的时候,样本量越大是越好的,所以我们一般都会改变检索结果的排序,如图所示。
三.数据集介绍
我们检索到的每一个数据集,在其末尾都有详细的信息介绍。小果给小伙伴们拿一个数据集来举个例子,如图所示。
经过以上小果对GEO数据库的详细介绍,小伙伴们是否对其有了更深刻的了解了呢,当然对GEO的探索还远远没有结束,例如我们想要查看上图所示数据集的具体信息,我们只需要点击蓝色字体链接就可以查看了,那关于数据集的具体信息小果会在下一篇的文章中去讲述,小伙伴们记得去搜索查看哦,好了今天的探索就到这里啦,我们再会。