简单认识GEO数据库

GEO数据库中储存的数据有芯片、二代测序以及其他高通量测序数据。使用这个数据库,可以检索到其他研究者上传的一些实验测序数据。通过一个实例来了解GEO数据库。

我们以GSE70493为例来熟悉GEO数据库,在GEO数据库中搜索GSE70493,得到数据情况如下:

Status:是指数据状态是公开的,时间是2015年8月3日

Title:是指数据集所在的文章的标题

Organism:是指组织是什么

Experiment type:说明实验的类型

Summary:此部分是对疾病的一个概况

Overall design:是说明实验总体的设计情况,包含有分组信息,芯片信息等

Contribute(s):说明文章与数据的贡献人

Citation(s):文献引用

Submission data:数据提交的时间

Last update data:数据最后更新的时间

Contact name:联系人名字,与通讯作者类似

Organization name:作者所在单位名称

Department:作者所在单位的部门名称

Street address:作者的地址

City:作者所在城市

State/province:作者所在州或者省份

ZIP:邮政编码

Country:国家

Platforms:芯片平台,包含探针信息,基因注释信息

Samples:样本信息

Bioproject:项目编号

Analyze with GEO2R:说明该数据可做差异分析

Download family:下载的数据有哪些,数据类型是什么

SOFT formatted family file(s):芯片中探针与基因的对应关系注释文件;单个样品表达量文件,格式为soft

MINiML formatted family file(s):芯片中探针与基因的对应关系注释文件;单个样品表达量文件,格式为MINIML

Series Matrix File(s):所有样品表达矩阵数据文件

GSE70493_RAW.tar:芯片原始数据(cel)文件