宝藏知识点!单基因生存分析-最佳截断点选取(cutoff)






宝藏知识点!单基因生存分析-最佳截断点选取(cutoff)

小果  生信果  2024-02-08 19:00:37

许多小伙伴们在做单基因生存分析时候,通常使用中位数或者四分位数等特殊位置为截断点。但是结果往往没有差异甚至毫无意义。

其实呢,并不一定使用中位数为cutoff,必要的时候使用最佳的cutoff。这个时候小果发现,如果找到一个最佳的截断的便可以使生存分析有差异。目前有很多方法去选择:如X-tile软件、R的CatPredi包、cutoff包等,但在这里小果主要给小伙伴们介绍一种方法使用R包survminer中surv_cutpoint()函数进行计算,选择生存分析的最佳截断点,然后绘制生存曲线图,这样得出的结果是有差异的。话不多说,小果带你走一遍。

首先载入数据:

setwd("E:\生信果")surv <- read.table("data.txt",sep = "t",row.names = 1,check.names = F,stringsAsFactors = F,header = T)

#这里读入的是小果自己的示例数据,这里需要小伙伴自己整理数据,选择自己分析的基因。接下来计算最佳阶段点:#调用包:library(survival)    library(survminer)#这里surv_cutpoint()函数进行计算截断值res.cut <- surv_cutpoint(surv, #数据集                         time = "time", #生存状态                         event = "event", #生存时间                         variables = c("GINS2","MCM2","PCNA") #需要计算的数据列名)summary(res.cut)#展示结果,这里查看数据最佳的截断点以及统计量

#下面这里小果展示数据的分布进行可视化,以GINS2为例:plot(res.cut, "GINS2", palette = "npg")res.cat <- surv_categorize(res.cut)head(res.cat)

    

#上述就是最佳截断点分布图的展示,从图中可以看出来截断值在3.83时候是最佳的,因此我们可以选择3.83这个值为我们的cutoff,去绘制生存曲线图。#最接下俩就是绘制生存曲线的图片了:fit <- survfit(Surv(time, event) ~GINS2, data = res.cat)#拟合生存分析,选择基因#绘制生存曲线并显示P值           library(survminer)ggsurvplot(fit,           data = surv,#示例数据               pval = T,#显示P值           conf.int = TRUE, # 显示置信区间           risk.table = TRUE, # 显示风险表,这里可有可无。需要的话绘制           risk.table.col = "strata",           palette = "jco", # 配色采用jco           #legend.labs = c("Low", "High"), # 图例           size = 1,#调整图片中的字体大小           xlim = c(0,2000), # x轴长度,一般为0-10年           break.time.by = 500, # x轴步长为20个月           #legend.title = "",#标注图片中的标题           surv.median.line = "hv", # 限制垂直和水平的中位生存           ylab = "Survival probability (%)", # 修改y轴标签           xlab = "Time (Days)", # 修改x轴标签           ncensor.plot = TRUE, # 显示删失图块           ncensor.plot.height = 0.25,           risk.table.y.text = FALSE)#这里参数是小果自己设置的,小伙伴如何想换个样式,可以自己设置自己想要结果的参数

   

至此,单基因有差异的生存曲线图绘制完成了。图中可以看出p<0.0001,有统计学意义。小果在这里也介绍一下生存曲线中的参数,在上述代码中都有标注。小伙伴们多多研究参数的意义,可以根据自己的数据,和想要的样式修改参数,得到自己想要的结果图片。

 需要注意一点呢,小伙伴们不能以虚假的数据进行分析,最佳截断点的选择往往都可以的到自己想要的结果,因此,小伙伴们可以放心使用。但是这里的生存数据仅仅只是生存时间和生存状态。其他状态的生存分析呢,小果在这里还没有发现,小伙伴有需求的可以多多研究。可以联系小果进行分享。  

小果还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询小果,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询小果


往期回顾

01

1024G存储的生信服务器,两人成团,1人免单!

02

单个数据库用腻了?多数据库“组合拳”带你打开免疫浸润新思路!

03

孟德尔随机化的准备工作,GWAS数据的网站下载方法

04

跟着小果学复现-手把手带你拿下IF=46.9Nature 级别的主成分分析(PCA)图!!