不知道哪里找数据集?R语言有答案!






不知道哪里找数据集?R语言有答案!

小师妹  生信果  2023-06-27 19:00:47

{ 点击蓝字,关注我们 }

很多小伙伴在学完新的模型后,常常苦于缺乏可用的数据集进行练习。然而,R本身就可以直接获取许多生物信息相关数据集。今天就让小师妹带领大家一起探索一些常见的生物信息数据集吧!

NCBI数据集

NCBI(National Center for Biotechnology Information)是一个全球著名的生物信息学数据库和搜索引擎,提供了各种各样的生物医学信息,包括基因序列、蛋白质序列、基因组数据、文献数据等等。这些数据集涵盖了各种生物种类,从细菌、真菌到植物、动物,无所不包。

在R语言中,可以通过BiocManager包中的NCBI包获取NCBI数据集。首先需要安装BiocManager包,然后使用install函数安装NCBI包。接下来,可以使用ncbiFetch函数来获取NCBI数据集。

# 安装BiocManager包if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")# 安装NCBI包BiocManager::install("NCBI")# 获取NCBI数据集library(NCBI)human_genome <- ncbiFetchGenome("human")

Bioconductor数据集

Bioconductor是一个R语言的生物信息学工具包,提供了许多常用的生物信息学数据集和分析工具。其中包括基因表达数据、突变数据、基因注释数据等等。

if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install()# 获取Bioconductor数据集library(Biobase)data(geneData)

KEGG数据集:

KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个综合的基因组代谢通路数据库,提供了基因组、代谢通路、药物、酶等方面的信息。通过KEGG,我们可以了解基因和代谢通路之间的关系,并探索生物体内代谢的机制。

在R语言中,可以通过KEGGREST包获取KEGG数据集。首先需要安装KEGGREST包,然后使用KEGGREST函数来获取KEGG数据。

# 安装KEGGREST包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("KEGGREST")


# 获取KEGG数据集
library(KEGGREST)
pathways <- keggList("pathway", "hsa")

UniProt数据集:

UniProt是一个综合的蛋白质序列和注释数据库,提供了丰富的蛋白质信息和注释信息。在UniProt中,可以查找蛋白质序列、功能、结构、亚细胞定位、表达、相互作用等方面的信息,这些信息对于研究蛋白质的结构和功能非常有用。

在R语言中,可以通过UniProt.ws包获取UniProt数据集。首先需要安装UniProt.ws包,然后使用uniprot函数来获取UniProt数据。

# 安装UniProt.ws包if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install("UniProt.ws")# 获取UniProt数据集library(UniProt.ws)uniprot_data <- UniProt.ws::getUniProt(id = "P04637", columns = c("entry", "protein.names"))

TCGA数据集:

TCGA(The Cancer Genome Atlas)是一个致力于癌症基因组学研究的项目,旨在深入了解各种癌症的分子特征,并推动癌症治疗的进展。TCGA项目提供了大量的癌症基因组数据,包括基因表达、突变、DNA甲基化等多个方面的数据。

在R语言中,可以通过TCGAbiolinks包获取TCGA数据集。首先需要安装TCGAbiolinks包,然后使用GDCquery函数来获取TCGA数据。

# 安装TCGAbiolinks包if (!requireNamespace("BiocManager", quietly = TRUE))install.packages("BiocManager")BiocManager::install("TCGAbiolinks")# 获取TCGA数据集library(TCGAbiolinks)query <- GDCquery(project = "TCGA-LUAD",data.category = "Transcriptome Profiling",data.type= "Gene Expression Quantification",workflow.type = "HTSeq - FPKM")GDCdownload(query)LUAD <- GDCprepare(query)

GEO数据集:

GEO(Gene Expression Omnibus)是一个基因表达数据集数据库,包含了大量的基因表达数据和元数据。这些数据集涉及多种生物学实验,包括基因表达、外显子组、甲基化、蛋白质组等方面的数据。GEO的数据集可以帮助我们了解基因表达模式、蛋白质功能、基因调控等方面的信息。

在R语言中,可以通过GEOquery包获取GEO数据集。首先需要安装GEOquery包,然后使用getGEO函数来获取GEO数据。

# 安装GEOquery包install.packages("GEOquery")# 获取GEO数据集library(GEOquery)gse <- getGEO("GSE106817")gse_data <- as.data.frame(exprs(gse[[1]]))

R语言可不只语法和函数!对于那些热爱生物信息学的小伙伴来说,R语言还提供了许多方便获取生物信息数据集的工具包。这些工具包包括NCBI、Bioconductor、KEGG、UniProt、TCGA和GEO等,通过简单的代码就可以获取丰富的生物信息数据集,让你愉快地进行生物信息学练习和分析。这些数据集不仅包括基因序列、蛋白质序列、基因组数据,还有基因表达数据、突变数据、DNA甲基化数据等等。小伙伴们可以在R语言中轻松地探索基因组的奥秘,研究蛋白质的结构与功能,还可以用数据绘制漂亮的图形~

快带上这些数据集到云生信平台和小师妹一起试试小工具吧!http://www.biocloudservice.com/home.html

E

N

D