2024-06-16

小果发现用SRA Toolkit工具下载转录组数据很好用！

原创 xiao?guo 生信果 2023-06-04 19:00:26

生信人R语言学习必备

立刻拥有一个Rstudio账号

开启升级模式吧

（56线程，256G内存，个人存储1T）

有时候我们想要下载别人的转录组数据进行练习或分析，可能会突然发现无从下手，巧妇难为无米之炊啊，这可怎么办？

小果本期来分享用SRA Toolkit工具在NCBI的SRA数据库下载拟南芥的转录组数据Run Selector :: NCBI (nih.gov)。

SRA Toolkit是由美国国家生物技术信息中心（NCBI）开发的一款用于高通量测序数据处理的软件包，主要用于存储和分析NCBI Sequence Read Archive（SRA）中的测序数据。该工具包提供了多个命令行工具，支持从SRA下载数据、将SRA转换为常见的FASTQ格式、将FASTQ文件转换为SRA格式等多种功能。

SRA Toolkit不仅适用于NCBI SRA数据库，也可用于处理其他来源的高通量测序数据。使用SRA Toolkit可以实现高效的数据下载、数据格式转换、数据处理和分析等多个步骤，并且支持多线程和分布式处理，能够加快数据处理速度和提高数据处理效率。下面我们一起来看看这个工具如何使用吧~

1. 安装SRA Toolkit

conda create --name sratoolkitconda activate sratoolkitconda install -c bioconda sra-tools

2.下载数据ls

激活sratollkit环境，然后就可以用它批量下载数据了，因为数据量太大，而小果只是想作为练习，因此只下载了9个样本的测序数据，具体方法如下：

（1）查找需要下载的SRA数据的访问号（Accession Number）

（2）下载Accession List，会下载一个包含所有Run编号的文本文档

小果这里只保留了9个样本（在文档里删除其他不需要的run编号就可以了），需要的话可以全部下载。

（3）在终端中切换到要将SRA文件下载到的目录

nohup prefetch -O . $(<srr_acc_list.txt) &<=”” span=””>###将文件下载到当前目录并作为后台进程运行

当然了，你也可以这样下载，不过会比较麻烦：

prefetch SRR8054374 SRR8054375 SRR8054376 SRR8054377 SRR8054378 SRR8054379 SRR8054380 SRR8054381 SRR8054382### SRR8054374等为SRA文件的run number

a year later……

好啦，可以看到文件已经下载完成了。

3.转换格式

如果你下载的文件在同一个目录下：

fastq-dump --gzip --split-files *.sra &#将.sra文件转换为.fastq.gz文件gunzip *.fastq.gz #解压缩所有.fastq.gz文件

以上就是全部内容啦，我们下期见！

欢迎使用：云生信 – 学生物信息学 (biocloudservice.com)

如果想用服务器可以联系微信：18502195490（快来联系我们使用吧！）

微信号 | 18502195490

知乎 | 生信果

点击“阅读原文”立刻拥有

↓↓↓

小果发现用SRA Toolkit工具下载转录组数据很好用！

小果发现用SRA Toolkit工具下载转录组数据很好用！

推荐阅读

R4.4.1 已安装R包列表

☆☆slurm必读☆☆

还在为基因组组装发愁？用MEGAHIT，只需简单几步，让你的基因组组装速度和效率成倍提升！