「付费」【代码-8】如此简单吗？一文拿捏GEO数据库芯片数据下载及差异分析

原创小果生信果 2023-10-17 19:00:52

收录于话题

今天小果想带这小伙伴们一起学习一下如何从GEO数据库下载芯片数据，并进行芯片数据处理，最后利用limma包进行差异分析

通过该推文将完全掌握GEO公共数据下载和差异分析，非常非常适合小白，如果你有数据挖掘的想法，接下来马上跟着小果开始今天的学习之旅，相信你会收获满满。

1. 如何获得相关疾病的GEO数据库ID

在进行实操之前，最重要的是要获得相关疾病的GEO数据库ID，如何获得呢？不慌！小果为大家介绍两种常用的方法。第一种方法是通过NCBI GEO DataSets 数据库下载，可以直接输入想查询的疾病名称就可以进行搜索获得相应的数据，网址为：

https://www.ncbi.nlm.nih.gov/gds/?term=GSE70494

第二种方法是通过以发表的文献来查询相关疾病的GEO ID，小果是通过PubMed来查询，只需要输入相关疾病关键字和GEO就可以搜索到相关文章和GEO ID，该网址为：

https://pubmed.ncbi.nlm.nih.gov/?term=gene+family

一般通过这两种方法就可以获取自己想要的GEO ID，通过小果的方法获得ID后，就可以跟着小果开始今天的实操分析啦，其实就是这么简单！！！哈哈哈哈哈。。。。。。。。

2. 导入需要的R包

library(GEOquery)library(limma)

7. 结果文件

1. gplTOgene.csv

该结果文件为探针id对应的Gene symbol和entrez_id，第一列为探针ID，第二列为Gene symbol,第三列为entrez_id。

2. easy_input_expr.csv

该结果文件为处理好的表达矩阵文件，行名为Gene symbol,列名为对应的样本名。

3. easy_input_pheno.txt

该结果文件为提取的样本分组文件。

4. easy_input_limma.csv

该结果文件为通过limma包进行差异分析结果文件，行名为Gene symbol,第一列为log2FC，第四列为Pvalue值，第五列为矫正后的Pvalue值。

如果需要完整的代码可以点击付费获取哦!今天小果的分享就到这里~

往期推荐

1.搭建生信分析流水线，如工厂一样24小时运转Snakemake——进阶命令

推荐阅读