噬菌体只是微生物中的小打小闹?神秘工具PhaGCN_newICTV,带你探索噬菌体分类的“黄金法则”!






噬菌体只是微生物中的小打小闹?神秘工具PhaGCN_newICTV,带你探索噬菌体分类的“黄金法则”!

小果  生信果  2024-04-04 19:00:54

今天,让我们一同探索噬菌体这个微生物世界中的“超级英雄”!同学们不要小看他们哦,它们可是一类神秘而重要的微生物,以感染细菌为主要任务,通过各种方式维持着生态系统的平衡。而在这个探索之旅中,我们将重点介绍一款新型工具——PhaGCN_newICTV,它基于半监督学习模型,能够按照国际病毒分类委员会(ICTV)的最新标准对噬菌体进行种属分类,为我们解读噬菌体提供了全新的视角。
在今天的学习中,我们将首先学习如何下载、配置和运行PhaGCN_newICTV工具,为后续的噬菌体分类预测做好准备。随后,我们将以一个分类预测示例来展示工具的使用方法,了解如何根据噬菌体的DNA序列进行准确的分类,并探索其在生态系统中的重要作用。接下来就让小果带领大家一起开启学习之旅,探索噬菌体世界的奥秘,共同探讨PhaGCN_newICTV工具的应用和意义,为微生物领域的新发现和应用贡献一份力量吧!
              
特别提示,这次介绍的软件PhaGCN_newICTV需要在服务器上运行,如果同学们没有自己的服务器,欢迎联系我们进行服务器租赁哦~



公众号后台回复“111”

领取本篇代码、基因集或示例数据等文件

文件编号:240402

需要租赁服务器的小伙伴可以扫码添加小果,此外小果还提供生信分析,思路设计,文献复现等,有需要的小伙伴欢迎来撩~

PhaGCN_newICTV介绍
PhaGCN_newICTV是以一种新颖的半监督学习模型为基础,用于对噬菌体重叠群进行分类。在该学习模型中,通过结合卷积神经网络学习到的DNA序列特征和基因共享网络得到的蛋白质序列相似性来构建知识图谱。然后,我们应用图卷积网络在训练中同时利用有标记和无标记样本来增强学习能力,并且PhaGCN采用ICTV最新分类标准。
PhaGCN_newICTV的文献如下图,感兴趣的同学可以去下载阅读哦。
          
PhaGCN_newICTV的配置即预测示例
PhaGCN_newICTV源文件下载:
首先我们需要在Github社区上下载PhaGCN_newICTV的开源代码https://github.com/KennthShang/PhaGCN_newICTV?tab=readme-ov-file)    
可以使用以下命令
gh repo clone KennthShang/PhaGCN_newICTV# 使用github官方下载工具gh下载。
也可以在服务器上选择合适的下载位置,输入以下命令进行:
wget -c 
https://codeload.github.com/KennthShang/PhaGCN_newICTV/zip/refs/heads/main
# 直接下载.zip安装包到服务器。随后使用unzip工具进行解压,没有这个工具的同学可以使用conda进行安装。unzip main # 解压下载的文件到当前目录。ls # 显示当前目录文件
显示如下图,有一个“PhaGCN_newICTV-main”文件夹表示下载解压成功    
随后
cd PhaGCN_newICTV-main # 进入文件夹ls # 显示当前目录文件至此我们已经成功下载PhaGCN_newICTV源文件,并且进入了源文件所在目录。配置PhaGCN_newICTV环境:cat environment.yaml # 查看“environment.yaml”文件内容
由文件格式可知,“environment.yaml”是一个conda配置文件,详细列出了PhaGCN_newICTV正常运行所需要的环境。
可以采用conda命令快速配置环境,安装需要的依赖软件,但是文件指定了conda下载的channels,且这些channels均为外网channel,国内服务器无法正常访问,因此需要对“environment.yaml”进行修改,
vim environment.yaml # 使用vim编辑器打开environment.yaml文件
将光标移动到这五行上,随后键盘双击d,可删除整行,删除后如图所示:
键盘输入以下代码保存并退出。
:wq
随后键盘输入下列代码添加清华大学相关镜像。
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/    
conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
然后在当前目录运行
conda env create -f environment.yaml -n phagcn # 按照配置文件创建conda环境
这个过程可能需要较长时间,请同学们耐心等待。
显示如图,则表示安装完成
conda activate phagcn # 激活环境
出现(phagcn)则表示PhaGCN_newICTV所需要的所用的环境都配置完成,接下来可以进行噬菌体分类预测了。
PhaGCN_newICTV分类预测示例:
这里我们提供一个示例来展示如何运行PhaGCN。我们采用自带的示例文件,一个名为“contigs”的fa文件。它包含大肠杆菌噬菌体模拟的contigs。  
“Contigs.fa”文件内容大致如图:
进行分类预测
python run_Speed_up.py –contigs contigs.fa –len 8000
该程序有两个参数: –contigs是你的congs文件的路径。–len是你想要预测的组合的长度。随着序列长度的增加,查全率和查准率都有所提高。建议同学们根据自己的需要选择合适的长度。默认值为8000bp,最小值为2000bp。
预测过程大致如下图所示:
预测输出文件是一个名为“final_prediction.csv”的csv文件,这个文件可以直接使用excal打开,主要包括三列“contig_name, median_file_name, prediction“,分别表示基因簇的名称,预测中间文件的名称和预测结果。    
可知contigs.fa 文件被预测为Ackermannviridae科,完整的分类路线为
Realm: Duplodnaviria
Kingdom: Heunggongvirae
Phylum: Uroviricota
Class: Caudoviricetes
Family: Ackermannviridae
在ICTV官网(https://ictv.global/)上可以看到关于Family: Ackermannviridae的详细信息。
              
以上就是安装和使用PhaGCN_newICTV的全部过程了,PhaGCN_newICTV工具的出现为微生物世界带来了新的探索可能,通过结合半监督学习模型和最新的国际病毒分类委员会(ICTV)标准,它能够精准地对噬菌体进行分类。通过下载源文件并配置环境,用户可以轻松地进行噬菌体的分类预测,PhaGCN_newICTV的不仅揭示了噬菌体在生态系统中的重要作用,还为解决人类疾病提供了新的可能性。小果希望同学们能够继续探索噬菌体的神秘世界,学习并应用PhaGCN_newICTV工具,共同开启微生物领域的新篇章!
          
同学们如果觉得自己写代码麻烦,可以体验一下我们的云生信小工具,只需输入数据,即可轻松生成所需图表。立即访问云生信
http://www.biocloudservice.com/home.html),开启便捷的生信之旅!
 

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!

定制生信分析

服务器租赁

扫码咨询小果



往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!