R语言基于caret包的机器学习 | 您所在的位置:网站首页 › r语言ggscatter函数包 › R语言基于caret包的机器学习 |
caret包(Classization And REgression Training的缩写)包含238种模型和众多函数,可以简化创建预测模型的流程。目前,caret包已经停止更新,其主要作者已加入Rstudio开发了tidymodels,从tidymodels中我们还能看到caret的影子。对于机器学习的初学者来说,caret是容易理解和学习的。 caret包的功能: 数据拆分数据预处理 特征选择 模型构建及优化 变量重要性评估 其他函数部分本文主要介绍数据拆分、数据预处理和模型构建及优化,其余部分在后续文章中介绍。 1、数据预处理 数据探索部分前文 R语言探索性数据分析(EDA) 已经介绍过了,不再赘述。 1.1创建虚拟变量 library(caret) library(earth) #利用包内的数据 data(etitanic)使用baseR中的model.matrix head(model.matrix(survived ~ ., data = etitanic)[,-1]) ## pclass2nd pclass3rd sexmale age sibsp parch ## 1 0 0 0 29.0000 0 0 ## 2 0 0 1 0.9167 1 2 ## 3 0 0 0 2.0000 1 2 ## 4 0 0 1 30.0000 1 2 ## 5 0 0 0 25.0000 1 2 ## 6 0 0 1 48.0000 0 0 #数据集etitantic中pclass变量有1st,2nd, 3rd三个水平,需要转换为虚拟变量 model.matrix()函数将pclass转换为三个变量并把第一个水平作为参考,同时生成一个常数列使用caret包的dummyVars()函数 dummies |
CopyRight 2018-2019 实验室设备网 版权所有 |