只需三分钟,掌握生存相关机器学习算法-superpc和Ridge
生信人R语言学习必备
立刻拥有一个Rstudio账号
开启升级模式吧
(56线程,256G内存,个人存储1T)

机器学习,在生信文章中出现的频率越来越高,成为不可或缺的一部分分析内容,今天小果想带着大家学习一下生存相关机器学习的两种算法-superpc和Ridge
接下来小果为大家对这两种算法做一下简单介绍
superpc这个算法的中文名称叫做监督主成分分析,Ridge回归也是对参数进行约束的一种求解方程,Ridge回归是在均方损失函数后面添加L2正则化项,能够参数无限接近零;通过训练集数据进行模型构建,然后利用测试数据进行模型预测,并计算模型的预测效能的C指数,通过该指数来判断模型的好坏,选择最适合的模型,如果觉得推文不错,点赞加关注奥,话不多说,小果开始今天的分享啦!
1.安装需要的R包
install.packages(“tidyverse”)
BiocManager::install(“survcomp”)
install.packages(“superpc”)
install.packages(“survival”)
install.packages(“glmnet”)
2.载入需要的R包
library(superpc)
library(survival)
library(survcomp)
library(tidyverse)
library(glmnet)
3.读取数据
#TCGA.txt–训练集数据,第一列为样本信息,第二列表示生存状态,第三列表示生存时间,其他列为基因名
tcga <- read.table(“TCGA.txt”, header = T,sep = “t”, quote = “”, check.names = F)
#GSE57303–测试集数据,第一列为样本信息,第二列表示生存状态,第三列表示生存时间,其他列为基因名.
GSE57303 <- read.table(“GSE57303.txt”, header = T, sep = “t”, quote = “”, check.names = F)
4.所需数据格式整理
5.superpc算法进行模型构建
6.Ridge算法进行模型构建
小果最终顺利的利用supersc和Ridge两种算法进行了模型构建和预测,并计算了预测效能C指数,来判断模型的好坏。
机器学习相关的其他分析内容欢迎尝试本公司新开发的云平台生物信息分析小工具,零代码完成分析
云平台网址:http://www.biocloudservice.com/home.html
主要包括lasso回归模型筛选特征基因(http://www.biocloudservice.com/116/116.php)
随机森林的十折交叉验证(http://www.biocloudservice.com/646/646.php)
svm-ref支持向量机的机器学习(http://www.biocloudservice.com/372/372.php)等机器学习相关的小工具。
今天小果的分享就到这里,欢迎大家和小果一起讨论学习,下期再见哦!
点击“阅读原文”立刻拥有
↓↓↓