一分钟带你了解Cook’s Distance,教你如何分析评估观测值对回归分析结果的影响

Cooks距离(Cooks distance)是一种用于识别在统计回归分析中具有高影响力的观测值的统计量。它是由统计学家R. Dennis Cook于1977年提出的,用于评估统计模型中的异常值和高杠杆点。

在统计回归分析中,我们建立一个模型来描述自变量与因变量之间的关系。Cooks距离衡量了在模型中移除某个观测值后,对模型参数估计产生的变化大小。具体而言,Cooks距离衡量了观测值对于回归分析中的参数估计值的影响程度。如果某个观测值对于参数估计有着很大的影响,那么它的Cooks距离将会很大。

Cooks距离的计算方式相对复杂,它基于回归分析的残差和杠杆值。残差是观测值与模型预测值之间的差异,杠杆值是反映观测值对于模型参数估计影响的指标。Cooks距离计算公式如下:

Cooks距离 = (残差差异 / (p * 均方残差)) * (杠杆值 / (1 – 杠杆值)^2)

其中,p是回归模型的参数个数,均方残差是残差的平方和除以自由度的均值。Cooks距离的值通常大于0,可以被看作是一个度量观测值影响力的指标。通常情况下,如果某个观测值的Cooks距离大于某个阈值(如4/n,其中n是观测值的个数),则可以认为该观测值对于回归模型的参数估计具有显著影响。

具体计算Cooks距离的方法如下:

1. 首先,我们拟合一个完整的线性回归模型,并得到模型的参数估计值。

2. 然后,分别计算在包含和不包含某个观测值的情况下,重新估计模型参数得到的两组参数估计值。

3. 接下来,计算每个观测值的残差,即观测值的实际值与根据模型参数估计值预测得到的值之间的差异。

4. 然后,计算在不包含该观测值的情况下的误差平方和(残差平方和),记作SSE(Sum of Squared Errors)。

5. 计算在包含该观测值的情况下的误差平方和,记作SSE_i。

6. 最后,计算Cooks距离,它是SSE_i和SSE之间的比值,乘以观测值个数的比值,即:

Cooks距离 = SSE_i / (p * SSE),其中p是模型中的参数个数。

通过检查Cooks距离,可以识别出对回归模型拟合有重大影响的观测值,并对其进行进一步的分析和处理,如检查数据收集或测量过程中的错误,或者考虑使用鲁棒回归方法来减弱其影响。

Cooks距离的应用包括:

  1. 异常值检测:Cooks距离可以用于识别在回归分析中具有异常值的观测值。
  2. 高杠杆点检测:Cooks距离可以用于识别对于回归模型参数估计具有高杠杆影响的观测值。
  3. 模型拟合评估:Cooks距离可以用于评估在模型中移除某个观测值后,对于参数估计的稳定性和准确性的影响。

示例:

假设我们有一个生物学实验数据集,其中包含基因表达水平和相关的生物学特征。我们想要通过线性回归模型来研究基因表达与生物学特征之间的关系,并使用Cooks距离来检测对模型拟合产生重大影响的观测值。

下面是一个简单的例子,展示如何使用R语言中的lm()函数和cooks.distance()函数来计算Cooks距离:

# 假设我们的数据集包含基因表达数据和生物学特征

> gene_expression <- c(2.5, 3.2, 2.8, 4.0, 3.5)

> biological_feature <- c(1.8, 2.5, 2.0, 3.7, 2.9)

# 创建数据框对象

> data <- data.frame(gene_expression, biological_feature)

# 拟合线性回归模型

> model <- lm(gene_expression ~ biological_feature, data = data)

# 计算Cooks距离

> cooks_distance <- cooks.distance(model)

# 打印每个观测值的Cooks距离

> print(cooks_distance)

Screenshot 2023-06-30 at 9.51.35 PM

上述代码中,我们首先创建了包含基因表达数据和生物学特征的数据框对象。然后,使用lm()函数拟合了一个线性回归模型,其中基因表达水平作为响应变量,生物学特征作为预测变量。接下来,我们使用cooks.distance()函数计算了每个观测值的Cooks距离,并将结果存储在cooks_distance变量中。最后,我们打印出每个观测值的Cooks距离。

根据Cooks距离的值,你可以根据经验设定一个阈值,以确定是否存在对模型拟合产生重大影响的观测值。如果某个观测值的Cooks距离超过了设定的阈值,可以进一步检查该观测值的数据,以确定其是否为异常值或离群点,并根据需要采取进一步的数据分析措施。

以上就是对Cooks Distance的简单介绍和举例说明啦,这只是一个简单的概括,对于具体例子还是要具体分析使用正确的方法,在生物学的领域还是会经常用到Cooks距离的,所以大家也可以多多运用到实际工作中会是一个很好的分析工具。

小伙伴们,今天有没有学到新知识呢,想要继续了解R语言内容可以持续关注小果哦~~或者也可以关注我们的官网也会持续更新的哦~ http://www.biocloudservice.com/home.html