怎样才能在信息爆炸的时代中快速获取准确的生信数据呢?Rentrez包,NCBI数据库的超级通行证!






怎样才能在信息爆炸的时代中快速获取准确的生信数据呢?Rentrez包,NCBI数据库的超级通行证!

小果  生信果  2024-04-09 19:00:17

小果来啦!相信同学们作为当代的生信人,一定都知道,在生物信息学领域的研究中,获取和分析大量的生物信息是至关重要的,而为了满足科研人员对数据的需求,我们今天的主角Rentrez包作为一款强大工具应运而生。Rentrez旨在使用户能够轻松地与美国国家生物技术信息中心(NCBI)数据库进行交互,而NCBI可是全球最大的生命科学数据库之一,汇集了大量的生物医学数据,包括PubMed中的文献、核苷酸数据库中的信息等。
在今天的学习中,我们将深入探讨Rentrez包的使用方法以及如何利用其从NCBI获取所需的生物信息数据。通过Rentrez包,我们无需复杂的手动操作,就可以轻松地搜索PubMed文献、下载核酸序列。在这个信息爆炸的时代,掌握并灵活运用生物信息学工具已成为科研人员的重要能力。让我们一起开启今天的学习之旅,深入了解Rentrez包的功能和用法,探索其在生物医学研究中的广泛应用吧。         
本次介绍的R包需要较多的硬件资源,在服务器可以更加流畅运行,同学们如果没有自己的服务器欢迎联系我们使用服务器租赁~    



公众号后台回复“111”

领取本篇代码、基因集或示例数据等文件

文件编号:240402

需要租赁服务器的小伙伴可以扫码添加小果,此外小果还提供生信分析,思路设计,文献复现等,有需要的小伙伴欢迎来撩~

rentrez包介绍
Rentrez包是R语言中一款功能强大的工具,旨在让用户轻松地与美国国家生物技术信息中心(NCBI)数据库进行交互。通过Rentrez包,用户可以方便地获取各种生物医学领域的数据,包括PubMed中的文献和NCBI核苷酸数据库中的序列信息等。该包提供了简洁而灵活的命令,使用户能够根据自己的需求定制检索条件,并轻松获取所需数据。不仅如此,Rentrez还支持多种数据库的调用,用户可以从NCBI各个数据库中获取数据,并提供了丰富的函数和方法来处理这些数据。总之,Rentrez包为生物信息学研究者提供了一个高效、便捷的途径,极大地促进了生物医学研究的发展。          
rentrez包安装
需要R语言版本为4.3,在控制台中输入以下命令:
if (!require("BiocManager", quietly = TRUE))    install.packages("BiocManager ")BiocManager::install("rentrez") # 在BiocManager环境下安装rentrez查看是否安装成功packageVersion("rentrez") # 查看rentrez版本
   
显示为1.2.3版本,则表示已经安装了rentrez包。
          
使用rentrez包从NCBI获取序列信息
rentrez包实现原理:
美国国家生物技术信息中心(NCBI)开放共享了大量生物医学领域的数据信息,PubMed中有3170万篇论文,NCBI核苷酸数据库(包括GenBank)包含了4320万个不同的序列数据,dbSNP描述了7.02亿个不同的遗传变异。所有这些记录都可以与NCBI分类学中的186万种物种或OMIM中的2.7万个与疾病相关的记录进行交叉引用。NCBI通过网页界面、FTP服务器以及名为Entrez Utilities(简称为Eutils)的REST API提供这些数据。而rentrez包提供了使用该API的功能,允许用户在R会话或脚本中收集和组合来自多个NCBI数据库的数据。
rentrez包可以调用的数据库:
首先,我们可以使用entrez_dbs()函数查找可用数据库的列表:
library(rentrez) # 载入rentrez包entrez_dbs() # 查找可用数据库的列表
显示结果如下图:    
我们可以entrez_db_summary()函数查看对应数据库的相关信息。
entrez_db_summary("nuccore") # 查看核酸数据库信息
显示结果如下图:
使用rentrez包搜索pubmed文献:
由entrez_dbs()函数返回的信息可知,我们可以使用rentrez包调用pubmed数据库从而通过关键词检索需要的文献,这里我们需要使用entrez_search()函数,包含两个简单的参数,db参数指定检索的数据库,term参数指定检索的关键词,我们以检索R语言相关信息为例,相关命令如下:
r_search <- entrez_search(db="pubmed", term="R Language") # 在pubmed数据库中检索R语言相关信息该命令的返回值是一个列表,我们可以直接查看它的信息。r_search # 打印r_search内容
   
显示如下:
由图可知一共检索到19450个相关项,默认保存了20个文献的ID来用于后续检索,同学们可以使用retmax参数来自定义获得的ID数,随后可以使用r_search$ids查看检索到的ID。
r_search$ids # 查看获取的ID
显示如下图:
随后,我们可以通过获得的ID来下载对应的文献的摘要,命令如下:
pubmed_id <- "12345678"  # 替换为你的文献IDarticle <- entrez_fetch(db="pubmed", id=pubmed_id, rettype="abstract")# 使用entrez_fetch函数下载文献信息print(article) # 打印下载的文献信息
结果如下:
使用rentrez包下载核酸序列:
我们同样也可以使用rentrez包根据序列编号来下载对应的核酸序列,相关命令如下:
例如下载K-12大肠杆菌完成基因组    
accession_number <- "NC_000913" # 设置要下载的序列的访问号sequence <- entrez_fetch(db = "nuccore", id = accession_number, rettype = "fasta", retmode = "text")# 使用 entrez_fetch 函数下载序列,指定数据库为 "nuccore",返回类型为 "fasta",返回模式为 "text"out_file <- "Ecoli.fasta" # 指定输出文件名write(sequence, file = out_file, append = TRUE) # 将下载的序列写入文件中,使用 append = TRUE 表示追加写入而不是覆盖写入
以上命令会在R语言的工作目录下生成一个名为”Ecoli.fasta”的文件,
结果如下图:
          
以上,就是对于rentrez包的全部介绍了,在今天的学习中,我们深入地了解了rentrez包的相关功能,它是一个让你轻松对接NCBI数据库的利器!通过rentrez包,我们可以轻松地从NCBI获取序列信息、搜索pubmed文献,并且可以根据序列编号下载对应的核酸序列,极大地方便了基因组学研究中的数据获取和处理过程。小果希望同学们继续学习和探索rentrez包的功能和用法,深入了解其更多的应用场景,并将其运用到自己的研究中。通过不断地学习和实践,同学们将能够更好地利用rentrez包,为生物信息研究的进步贡献自己的一份力量!愿同学们在学习过程中取得更多的进步和成就!    
          
同学们如果觉得自己写代码麻烦,可以体验一下我们的云生信小工具,只需输入数据,即可轻松生成所需图表。立即访问云生信
http://www.biocloudservice.com/home.html),开启便捷的生信之旅!
   

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!

定制生信分析

服务器租赁

扫码咨询小果



往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!