DALEX包用于探索、解释和评估模型;分析不同特征变量对响应变量的影响(7)

促销中

¥0.01

购买后会显示你购买的服务器的账号和密码。并且发送服务器的账号和密码到你的邮箱作为备份。格式为xxxx:zzzz  (以“:”分割,前边是账号,后边是密码),例如  xiaoyun:998899 那么你的服务器的账号和密码分别是xiaoyun和998899。

有了账号和密码后,不会登录服务器的参考链接:http://www.biocloudservice.com/wordpress/?p=292  

有问题咨询客服,客服微信:18502195490

分类:

描述

机器学习模型被广泛使用,并且在分类或回归任务中有各种应用。由于计算能力的提高、新数据源和新方法的可用性,ML模型越来越复杂。使用增强、神经网络装袋等技术创建的模型是真正的黑匣子。很难追踪输入变量和模型结果之间的联系。它们因高性能而被使用,但缺乏可解释性是它们最弱的方面之一。

在许多应用中,我们需要知道、理解或证明模型中如何使用输入变量以及它们对最终模型预测有什么影响。而DALEX是一组帮助理解复杂模型如何工作的工具,为了解决分类和回归问题的数据训练而创建的一个综合工具包。

小编最近学习到DALEX包能够对建立的模型进行很好的解释,不仅能够对模型进行评估,还可以进行不同特征变量对响应变量的影响进行分析。

目前,已有研究将DALEX包应用于生信文章,如下图。这是来自Am J Transl Res的一篇IF > 4分生信文章。

但是具体要如何实现?今天,下面小编以生物信息转录组数据为例进行说明。

代码具体包括:(支付后领取哦)

Step1输入数据并划分训练集和测试集

Step2构建模型(随机森林RF、广义线性回归GLM和支持向量机SVM)

Step3模型解释(DALEX包的explain函数对三个模型进行解释性分析)

Step4模型表现(model_performance函数)

Step5变量重要性分析(此处损失函数为均方根误差)

Step6单个连续型解释变量与响应变量关(variable_effect函数)

下面是代码中附带数据逐步分析结果:

ft1 累积残差分布图

ft2  样本残差箱线图

ft3  变量重要性分析图

ft4  单个连续型解释变量与响应变量关系图

方法1:使用variable_effect函数

type =”partial_dependency”

方法2:使用variable_effect函数

type = “accumulated_dependency”

神奇吧,就是如此简单,我们用的都是入门级函数,稍微懂点R语言就能实现。