「付费」【代码-8】如此简单吗?一文拿捏GEO数据库芯片数据下载及差异分析






「付费」【代码-8】如此简单吗?一文拿捏GEO数据库芯片数据下载及差异分析

小果  生信果  2023-10-17 19:00:52

今天小果想带这小伙伴们一起学习一下如何从GEO数据库下载芯片数据,并进行芯片数据处理,最后利用limma包进行差异分析

通过该推文将完全掌握GEO公共数据下载和差异分析,非常非常适合小白,如果你有数据挖掘的想法,接下来马上跟着小果开始今天的学习之旅,相信你会收获满满。

1. 如何获得相关疾病的GEO数据库ID


在进行实操之前,最重要的是要获得相关疾病的GEO数据库ID,如何获得呢?不慌!小果为大家介绍两种常用的方法。第一种方法是通过NCBI GEO DataSets 数据库下载,可以直接输入想查询的疾病名称就可以进行搜索获得相应的数据,网址为:

https://www.ncbi.nlm.nih.gov/gds/?term=GSE70494

第二种方法是通过以发表的文献来查询相关疾病的GEO ID,小果是通过PubMed来查询,只需要输入相关疾病关键字和GEO就可以搜索到相关文章和GEO ID,该网址为:

https://pubmed.ncbi.nlm.nih.gov/?term=gene+family

一般通过这两种方法就可以获取自己想要的GEO ID,通过小果的方法获得ID后,就可以跟着小果开始今天的实操分析啦,其实就是这么简单!!!哈哈哈哈哈。。。。。。。。

2. 导入需要的R包


library(GEOquery)library(limma)

7. 结果文件


1. gplTOgene.csv

该结果文件为探针id对应的Gene symbol和entrez_id,第一列为探针ID,第二列为Gene symbol,第三列为entrez_id。

 

2. easy_input_expr.csv

该结果文件为处理好的表达矩阵文件,行名为Gene symbol,列名为对应的样本名。

 

3. easy_input_pheno.txt

该结果文件为提取的样本分组文件。

 

4. easy_input_limma.csv

该结果文件为通过limma包进行差异分析结果文件,行名为Gene symbol,第一列为log2FC,第四列为Pvalue值,第五列为矫正后的Pvalue值。


如果需要完整的代码可以点击付费获取哦!今天小果的分享就到这里~

往期推荐

1.搭建生信分析流水线,如工厂一样24小时运转Snakemake——进阶命令
2.比blast还优秀的序列比对工具?HMMER来了
3.对单细胞分析毫无头绪?让popsicleR领你入门
4.小果带你绘制ROC曲线评估生存预测能力