R语言机器学习(1)

2024-07-03 22:07| 来源: 网络整理| 查看: 265

转载请注明出处：https://blog.csdn.net/xiezhiliang22 对应书籍：《R数据挖掘》薛薇中国人民大学出版社

1 前言

下面这几个部分主要讲述如何使用R语言来实现几个经典的机器学习以及统计学之中的算法，在这里原理部分就一带而过，如果想要学习的话可以参考其他博主。这里主要介绍如何直接上手使用几个经典算法。

2 K近邻原理

数学原理：简单来说就是基于已经给定的样本数据，通过各种各样的数学定义距离，这个新加入的点靠哪一个近，就属于那一类。误差评估：（1）旁置法————样本集合比较多的情况，分为2个集合分别为训练集合测试集（2）留一法————样本集合比较少的情况，比如有n个样本，抽取出来一个作为测试集，重复n次计算误差率适用范围：低维度的分类问题，高维度不太适用

3 R应用函数

注意：先下载class包在这里插入图片描述第一式子prob取TRUE代表函数的返回值是预测类别的概率，use.all表示当有多个等距离时候多个都参与。第二个式子表示1-近邻算法第三个式子是K近邻和之前误差分析中的留一法合在一起，这里不用指定训练样本集了

4 K近邻方法的特点+改进

（1）特征选择选择对分类结果影响比较大的结果，可以使用数理统计之中的方法来做相关性检验看变量与其的影响因子之间有没相关性，可以使用相关分析，方差分析，卡方检验等等此外还有选取不同的特征会导致有不同的误差，误差下降率越大说明这个特征选择越强（2）基于变量重要性的加权K近邻法这里有点类似于神经网络之中的权重影响对于最终结果的影响公式：在这里插入图片描述在下面的这段文字之前，先说明一下每一个的意思，w(i)权重是由后面的FI(i)错判率得到的（3）基于变量相似性的加权K近邻法在普通的K近邻之中，默认的K个近邻有同等强度的影响，实际上越近的影响越大。所以距离越近。具体处理办法：第一数值型变量做归一化处理，分类变量做-1或者+1这样，因为其没有实际距离上面的意义，只是分类上面的意义。在这里插入图片描述 **函数公式：**注意提前加载kknn包

5 代码实例数据分析 ##########KNN分类 set.seed(12345)#随机数的设置 x1 KnnFit KnnFit BuyHit fit

【本文地址】

公司简介

联系我们