用MEGA构建进化树，不会还有人不会吧！（二）

2024-02-27

用MEGA构建进化树，不会还有人不会吧！（二）

上次小果带大家在数据库下载了fasta序列并将其导入MEGA中进行序列比对，结果输出后保存了mas文件，本期我们接上期继续：

3.筛选模型。

双击保存的mas文件，点击Data➡Phylogenetic Analysi

回到主界面➡点击MODELS➡Find Best DNA/Protein Models（ML）…

这一步是为了寻找用来构建进化树最合适的模型，默认参数即可。

结束后会弹出一个界面，在BIC这一列中给出了模型得分，越靠前的越好，第一个是K2+G，但是软件不支持组合模型，所以选择排名最靠前的单个模型即可，这里小果选择了K2.

4.构建进化树

在主界面点击PHYLOGENY（树状图标）➡选第二个NJ邻接法建树

*最大似然法 (Maximum Likelihood) 和邻接法 (Neighbor-Joining) 是两种常见的建树方法两种方法之间的主要区别在于，最大似然法需要计算所有可能的树形状，因此对于大型数据集来说计算量很大，并且可能会受到计算资源的限制。而邻接法则是一种启发式方法，能够处理更大的数据集，但它没有考虑所有可能的树形状，可能会得到不同的树形状，取决于其启发式算法的选择和特定数据集的属性。总的来说，最大似然法对于小型和中型数据集是一个更准确的方法，而邻接法则则适用于更大的数据集。当然，你可以根据自己的偏好和分析目的选择建树方法。

在Test of Phylogeny中选择bootstrap（bootstrap是一种常用的重复抽样方法，用于评估构建的进化树的可靠性和统计显著性）我们在步长检验次数选择1000次（默认500）。

Model选择筛选出的模型即可，这里用到刚刚选择的K2

在Gaps/MissingData Treatment处选择Partial deletion，Site CoverageCutoff选择50。

*在分子序列中存在一些缺失的数据点或空缺的位置。这种缺失数据可能会对系统发育分析结果产生影响，因此需要对缺失数据进行处理。Partial deletion是其中一种方法，它将含有缺失数据的序列删除，但保留在其它序列中完整的数据点。Site Coverage Cutoff是指在Partial deletion方法中，允许保留的数据点的最小比例或阈值。例如，选择50表示只有在某个数据点上的数据在至少50%的样本中都有观测值时，才会将该数据点纳入分析。这个阈值的选择会影响结果的可靠性和准确性，较低的阈值可能会导致较多的噪音和偏差，较高的阈值可能会削减掉太多的数据点，可能会影响结果的精度和有效性。

点击OK，稍等片刻树就画好了。