不知道哪里找数据集?R语言有答案!
{ 点击蓝字,关注我们 }
很多小伙伴在学完新的模型后,常常苦于缺乏可用的数据集进行练习。然而,R本身就可以直接获取许多生物信息相关数据集。今天就让小师妹带领大家一起探索一些常见的生物信息数据集吧!
NCBI数据集
NCBI(National Center for Biotechnology Information)是一个全球著名的生物信息学数据库和搜索引擎,提供了各种各样的生物医学信息,包括基因序列、蛋白质序列、基因组数据、文献数据等等。这些数据集涵盖了各种生物种类,从细菌、真菌到植物、动物,无所不包。
在R语言中,可以通过BiocManager包中的NCBI包获取NCBI数据集。首先需要安装BiocManager包,然后使用install函数安装NCBI包。接下来,可以使用ncbiFetch函数来获取NCBI数据集。
# 安装BiocManager包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
# 安装NCBI包
BiocManager::install("NCBI")
# 获取NCBI数据集
library(NCBI)
human_genome <- ncbiFetchGenome("human")
Bioconductor数据集
Bioconductor是一个R语言的生物信息学工具包,提供了许多常用的生物信息学数据集和分析工具。其中包括基因表达数据、突变数据、基因注释数据等等。
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install()
# 获取Bioconductor数据集
library(Biobase)
data(geneData)
KEGG数据集:
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个综合的基因组代谢通路数据库,提供了基因组、代谢通路、药物、酶等方面的信息。通过KEGG,我们可以了解基因和代谢通路之间的关系,并探索生物体内代谢的机制。
在R语言中,可以通过KEGGREST包获取KEGG数据集。首先需要安装KEGGREST包,然后使用KEGGREST函数来获取KEGG数据。
# 安装KEGGREST包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("KEGGREST")
# 获取KEGG数据集
library(KEGGREST)
pathways <- keggList("pathway", "hsa")
UniProt数据集:
UniProt是一个综合的蛋白质序列和注释数据库,提供了丰富的蛋白质信息和注释信息。在UniProt中,可以查找蛋白质序列、功能、结构、亚细胞定位、表达、相互作用等方面的信息,这些信息对于研究蛋白质的结构和功能非常有用。
在R语言中,可以通过UniProt.ws包获取UniProt数据集。首先需要安装UniProt.ws包,然后使用uniprot函数来获取UniProt数据。
# 安装UniProt.ws包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("UniProt.ws")
# 获取UniProt数据集
library(UniProt.ws)
uniprot_data <- UniProt.ws::getUniProt(id = "P04637", columns = c("entry", "protein.names"))
TCGA数据集:
TCGA(The Cancer Genome Atlas)是一个致力于癌症基因组学研究的项目,旨在深入了解各种癌症的分子特征,并推动癌症治疗的进展。TCGA项目提供了大量的癌症基因组数据,包括基因表达、突变、DNA甲基化等多个方面的数据。
在R语言中,可以通过TCGAbiolinks包获取TCGA数据集。首先需要安装TCGAbiolinks包,然后使用GDCquery函数来获取TCGA数据。
# 安装TCGAbiolinks包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")
# 获取TCGA数据集
library(TCGAbiolinks)
query <- GDCquery(project = "TCGA-LUAD",
data.category = "Transcriptome Profiling",
data.type= "Gene Expression Quantification",
workflow.type = "HTSeq - FPKM")
GDCdownload(query)
LUAD <- GDCprepare(query)
GEO数据集:
GEO(Gene Expression Omnibus)是一个基因表达数据集数据库,包含了大量的基因表达数据和元数据。这些数据集涉及多种生物学实验,包括基因表达、外显子组、甲基化、蛋白质组等方面的数据。GEO的数据集可以帮助我们了解基因表达模式、蛋白质功能、基因调控等方面的信息。
在R语言中,可以通过GEOquery包获取GEO数据集。首先需要安装GEOquery包,然后使用getGEO函数来获取GEO数据。
# 安装GEOquery包
install.packages("GEOquery")
# 获取GEO数据集
library(GEOquery)
gse <- getGEO("GSE106817")
gse_data <- as.data.frame(exprs(gse[[1]]))
R语言可不只语法和函数!对于那些热爱生物信息学的小伙伴来说,R语言还提供了许多方便获取生物信息数据集的工具包。这些工具包包括NCBI、Bioconductor、KEGG、UniProt、TCGA和GEO等,通过简单的代码就可以获取丰富的生物信息数据集,让你愉快地进行生物信息学练习和分析。这些数据集不仅包括基因序列、蛋白质序列、基因组数据,还有基因表达数据、突变数据、DNA甲基化数据等等。小伙伴们可以在R语言中轻松地探索基因组的奥秘,研究蛋白质的结构与功能,还可以用数据绘制漂亮的图形~
快带上这些数据集到云生信平台和小师妹一起试试小工具吧!http://www.biocloudservice.com/home.html
E
N
D