机器学习之随机森林算法用于分类预测和筛选诊断标志物(3)

¥6.80

购买后会显示你购买的服务器的账号和密码。并且发送服务器的账号和密码到你的邮箱作为备份。格式为xxxx:zzzz  (以“:”分割,前边是账号,后边是密码),例如  xiaoyun:998899 那么你的服务器的账号和密码分别是xiaoyun和998899。

有了账号和密码后,不会登录服务器的参考链接:http://www.biocloudservice.com/wordpress/?p=292  

有问题咨询客服,客服微信:18502195490

分类:

描述

随机森林(Random Forest,简称RF)可以利用大型数据存储库来识别新的风险预测因子以及它们之间更复杂的相互作用来提高风险预测的性能。
随机森林
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支–集成学习(EnsembleLearning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上干棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想–集成思想的体现。“随机”就是指两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入,使得随机森林不容易陷入过拟合,并目具有很好得抗噪能力(比如:对缺省值不敏感)。其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。
而我们经常会在生信文章中看到随机森林模型的应用,像下图。这是来自Aging (Albany NY)的一篇生信文章。
但是具体要如何实现???今天,小编写了随机森林算法构建的代码。后续大家可以根据自己的研究方向合理套用。

代码具体包括:

Step1 输入数据

Step2 构建随机森林模型

Step3 找出使模型准确率达到最优所需要的树的数量

Step4 选择诊断标志物

下面是代码中附带数据逐步分析结果

决策树的数量对错误率的影响趋势图
重要性排名就是如此简单,我们用的都是入门级函数,稍微懂点R语言就能实现
如需代码及相关数据,付费后领取哦~文件包含