「付费」【代码-8】如此简单吗?一文拿捏GEO数据库芯片数据下载及差异分析
通过该推文将完全掌握GEO公共数据下载和差异分析,非常非常适合小白,如果你有数据挖掘的想法,接下来马上跟着小果开始今天的学习之旅,相信你会收获满满。
1. 如何获得相关疾病的GEO数据库ID
在进行实操之前,最重要的是要获得相关疾病的GEO数据库ID,如何获得呢?不慌!小果为大家介绍两种常用的方法。第一种方法是通过NCBI GEO DataSets 数据库下载,可以直接输入想查询的疾病名称就可以进行搜索获得相应的数据,网址为:
https://www.ncbi.nlm.nih.gov/gds/?term=GSE70494
第二种方法是通过以发表的文献来查询相关疾病的GEO ID,小果是通过PubMed来查询,只需要输入相关疾病关键字和GEO就可以搜索到相关文章和GEO ID,该网址为:
https://pubmed.ncbi.nlm.nih.gov/?term=gene+family
一般通过这两种方法就可以获取自己想要的GEO ID,通过小果的方法获得ID后,就可以跟着小果开始今天的实操分析啦,其实就是这么简单!!!哈哈哈哈哈。。。。。。。。
2. 导入需要的R包
library(GEOquery)
library(limma)
7. 结果文件
1. gplTOgene.csv
该结果文件为探针id对应的Gene symbol和entrez_id,第一列为探针ID,第二列为Gene symbol,第三列为entrez_id。
2. easy_input_expr.csv
该结果文件为处理好的表达矩阵文件,行名为Gene symbol,列名为对应的样本名。
3. easy_input_pheno.txt
该结果文件为提取的样本分组文件。
4. easy_input_limma.csv
该结果文件为通过limma包进行差异分析结果文件,行名为Gene symbol,第一列为log2FC,第四列为Pvalue值,第五列为矫正后的Pvalue值。
如果需要完整的代码可以点击付费获取哦!今天小果的分享就到这里~
往期推荐