sratools:一站式解决 SRA 数据下载、转换和分析问题

大家好,我是小果,今天我要给大家介绍一个超级好用的生信小工具,叫做sratools。sratools是什么呢?它是一个可以帮助你下载、转换、分析NCBI SRA数据库中的测序数据的软件包。你可能会问,为什么要用sratools呢?有什么好处呢?让我来告诉你吧!

1. 下载安装简单

下载网址;https://github.com/ncbi/sra-tools.git

或者https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit 选择适合自己的版本下载即可。

2. 使用就更简单。

第一步解压:

$ tar -xzf sratoolkit.3.0.6-ubuntu64.tar.gz

$ cd sratoolkit.3.0.6-ubuntu64/bin/

Sratoolkit的功能主要有下载SRA数据、转换为fastq文件和查看SRA文件信息等。

sratools可以让你快速地下载SRA数据,不用担心网络不稳定或者文件损坏的问题。你只需要输入SRA的accession number,就可以一键下载你想要的数据是不是很方便呢?比如,你想下载一个关于植物叶绿体的项目,就只需要输入命令:

$ ./prefetch SRR24757234

这个文件有点大,要耐心等几分钟,然后我们就得到了一个SRR24757234/的文件夹,,文件夹内有一个SRR24757234.sra文件,它就是我们的模板文件啦。

通常情况下,我们需要用的sratools格式转换功能,将SRA数据转换为常见的FASTQ格式。只需要输入命令:

$ ./fastq-dump SRR24757234

得到文件SRR24757234.fastq,就可以把SRR24757234这个样本的SRA文件转换为FASTQ文件了。

我们也可以添加一些参数来调整输出的格式,比如:

$ ./fastq-dump –split-files –gzip SRR24757234

得到SRR24757234_1.fastq.gz和SRR24757234_2.fastq.gz两个文件,这样就可以把SRR1552456这个样本的双端测序数据分别输出为两个压缩的FASTQ文件了。只不过会比较慢,可以后台运行。

sratools的另一个常用的功能是查看SRA数据。使用sra-stat命令可以查看SRA数据的统计信息,包括碱基数、读长、质量分布等。例如,要查看SRR390728这个样本的SRA数据的碱基数和读长分布,可以使用以下命令:

$ ./sra-stat -x –statistics SRR24757234 > SRR24757234.xml

-x表示以xml格式输出,这样我们就得到了一个包含样本SRR24757234的统计信息文件SRR24757234.xml。

(网页的部分内容)

Sratools还有搜索特征序列的功能。使用sra-search命令可以在SRA数据中搜索指定的序列或模式,支持正则表达式。例如,要在SRR24757234这个样本的SRA数据中搜索包含“ATTCGT”这个序列的reads,可以使用以下命令:

$ ./sra-search ATTCGT SRR24757234

或者

$ ./sra-search “CGTA||ACGT” -e -a NucStrstr SRR24757234

此例子中”CGTA||ACGT”表示搜索包含“CGTA”或“ACGT”的序列。-e选项表示使用扩展正则表达式进行搜索。-a NucStrstr 选项指定了要使用“NucStrstr”算法。这样就可以找到我们感兴趣的特征序列啦!

Sratools还有验证SRA数据的功能。使用vdb-validate命令可以验证SRA数据的完整性和一致性,检查是否有损坏或错误。例如,要验证SRR24757234这个样本的SRA数据是否有效,可以使用以下命令:

$ ./vdb-validate SRR24757234

如果文件完整,会得到“Database ‘SRR24757234.sra’ is consistent”的结果。

总之,sratools是一个非常实用的生信工具,它可以让你更方便地下载、转换、分析SRA数据,节省你的时间和精力。如果你还没有尝试过sratools,那就赶快去下载安装吧!希望你能喜欢sratools,也希望你能在生信的道路上越走越远!谢谢大家!
“`