NCBI Datasets 下载序列的利器

NCBI Datasets是一种新的资源,可以让您轻松地从跨NCBI数据库收集数据。您可以使用它来查找和下载基因和基因组的序列、注释和元数据,使用我们的命令行界面(CLI)工具或NCBI Datasets web界面。

下载并安装

下载的链接在这里,根据自己的电脑版本找到相应的安装包

https://www.ncbi.nlm.nih.gov/datasets/docs/v2/download-and-install/

展示linux系统安装的流程:

1、通过curl安装

下载 datasets: curl -o datasets ‘https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/datasets

下载 dataformat: curl -o dataformat ‘https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/dataformat

修改一下权限:chmod +x datasets dataformat

未修改权限前是一个不能执行的文件(这里我用绿色来区分可以执行的命令,即在交互式页面可以直接键入使用,例如linux自带的“ls”命令一样)

/private/var/folders/xd/jn2f48nj2k52zzgd8wm1j4yr0000gn/T/com.kingsoft.wpsoffice.mac/photoedit2/20230920203929/temp.pngtemp

修改权限后:

/private/var/folders/xd/jn2f48nj2k52zzgd8wm1j4yr0000gn/T/com.kingsoft.wpsoffice.mac/photoedit2/20230920203954/temp.pngtemp

datasets -h #测试你是否安装成功

2、通过conda 进行安装

首先创建一个conda环境: conda create -n ncbi_datasets

然后激活这个环境: conda activate ncbi_datasets

最后通过这条命令进行安装: conda install -c conda-forge ncbi-datasets-cli”<14″

用法

通过上述的下载,小花相信你已经下载了好了datasets,下面来看看datasets怎么用叭~

网页粘贴代码

/private/var/folders/xd/jn2f48nj2k52zzgd8wm1j4yr0000gn/T/com.kingsoft.wpsoffice.mac/photoedit2/20230920234302/temp.pngtemp

我们可以从网上看到相关的下载代码,复制下来在命令行输入相关代码。

截屏2023-09-20 23.40.46

复制这段代码:

datasets download genome accession GCF_000002655.1 –include gff3,rna,cds,protein,genome,seq-report –filename GCF_000002655.1.zip

这种方法给小白带来的福利哦~

/private/var/folders/xd/jn2f48nj2k52zzgd8wm1j4yr0000gn/T/com.kingsoft.wpsoffice.mac/photoedit2/20230922160953/temp.pngtemp

IMG_258

在讲用法之前我们先对照上图了解这个小软件的所有用法。

基因组的下载

#单独下载某一个基因组信息

datasets download genome accession GCF_000001405.40

#下载某一个物种下的所有的基因组信息

datasets download genome taxon “Candida lusitaniae”

#下载人类的基因组信息

datasets download genome taxon “human” –filename human_dataset.zip

datasets download genome accession GCF_000001405.40 –filename human_GRCh38_dataset.zip

下载的过程中会显示: 截屏2023-10-08 22.46.44

下载完成后的信息会显示:

截屏2023-09-20 22.38.33

除此之外,以BioProject 方式下载

datasets download genome accession PRJEB33226 –filename sanger_bioproject_dataset.zip

下面小花列出常用命令,读者可以根据自己的需求进行选择

#下载人类参考基因组

datasets download genome taxon human –reference

截屏2023-10-08 22.47.56

#获取注释人类基因组的数据

datasets download genome taxon human –annotated

截屏2023-10-08 22.47.35

#以“完整基因组”的装配水平获取人类基因组数据

datasets download genome taxon human –assembly-level complete

截屏2023-10-08 22.48.24

#获取2020年1月1日之后发布的人类基因组数据

datasets download genome taxon human –released-after 01/01/2020

截屏2023-10-08 22.49.11

#获取T2T联盟提交的人类基因组数据

datasets download genome taxon human –search ‘T2T Consortium’

截屏2023-10-08 22.49.32

基因的下载

除了基因组的下载,基因的下载也是可以解决的。

#基因的下载

datasets gene accession

datasets gene gene-id

通过提供单个或多个基因id(空格分隔)下载基因数据包。如果使用——inputfile选项,每个gene-id应该在单独的一行中。

datasets download gene gene-id 1 2 3 9 10 11 12 13 14 15 16 17

截屏2023-10-08 22.49.59

执行如下命令,按基因符号下载基因数据包。

datasets download gene symbol ACRV1 A2M –taxon human

截屏2023-10-08 22.50.30

通过RefSeq核苷酸或蛋白质加入下载基因数据包。

datasets download gene accession NM_020107.5 NP_001334352.2

截屏2023-10-08 22.50.50

按物种名称或分类号下载基因资料包。运行以下命令下载所有人类基因的基因数据包。

datasets download gene taxon human

截屏2023-10-08 22.51.08

真核基因数据包默认包含转录物、蛋白质序列和元数据,而原核数据包含基因和蛋白质序列,外加元数据。可以选择添加额外的数据文件,或者只在数据包中包含元数据,使用——include一个或多个术语。下面是一些使用——include标志来选择在数据包中包含哪些数据文件的示例。

获取人类BRCA1基因(gene-id: 672)的基因和蛋白质序列:

datasets download gene gene-id 672 –include gene,protein

截屏2023-09-22 16.25.17

这个示例中获取了gene-id为672的基因序列ncbi_dataset/data/gene.fna和蛋白质序列ncbi_dataset/data/protein.faa

获取人类BRCA1基因(gene-id: 672)的基因、转录本、CDS和蛋白质序列:

datasets download gene gene-id 672 –include gene,rna,cds,protein

截屏2023-09-22 16.33.46

这个示例中,

获取一个只有基因数据报告(元数据)的数据包:

datasets download gene gene-id 672 –include none

庞大的基因组的下载方法

#大基因组的下载

1、下载的命令datasets download genome taxon “human” –dehydrated

下载显示:

截屏2023-09-21 16.14.30

2、解压unzip ncbi_dataset.zip

这样下载ncbi_dataset.zip解压后,你会看到如下的

截屏2023-09-22 16.11.53

在压缩包中文件中fetch.txt存储了下载的信息

3、nohup datasets rehydrate –directory ./

运行上述的命令才开始下载相关的基因组的信息。这里的命令挂在了后台,如果中断可以再次提交,会从中断的地方再下载的。这一点对于下载庞大的基因组来讲是非常的有利的。

这里小花强烈建议超过100个基因组以上采用上述的办法,进行下载。

如果遇到不懂的也可以借助线上的云平台哦~http://www.biocloudservice.com/home.html

好了今天的序列下载工具就讲到这里,欢迎大家有问题与小花一起讨论哦~