python机器学习：决策树详解

您所在的位置：网站首页 › cart决策树算法的python实现 › python机器学习：决策树详解

python机器学习：决策树详解

2023-10-18 15:01| 来源: 网络整理| 查看: 265

文章目录一、决策树工作原理1.1 定义1.2 决策树结构1.3 核心问题二、sklearn库中的决策树2.1 模块sklearn.tree2.2 sklearn建模基本流程2.3 决策树建模流程三、分类树3.1构造函数3.2 建立分类树（测试Criterion）3.3确定最优剪枝参数：3.4 查看决策树属性接口3.5 代码示例四、回归树4.1构造函数4.2交叉验证4.3 实例：一维回归图像绘制

一、决策树工作原理 1.1 定义

决策时(Decislon Tree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则。并用树状图的结构来呈现这些规则，**以解决分类和回归问题。**决策树算法的本质是一种图结构，我们只需要问一系列问题就可以对数据进行分类。

举例：动物类别分类已知物种以及所属类别的数据，目标获得哺乳类和非哺乳类。在这里插入图片描述决策树算法：如果，我们发现了一种新生物Python，它是冷血动物，体表带鳞片，并且不是太升，我们可以通过决策树判断类别。

1.2 决策树结构根节点：最初的问题所在的地方叫做根节点。中间节点：在得到结论前的每一个问题都是中间节点。叶子节点：得到的每一个结论都叫做叶子节点。 1.3 核心问题

1、如何从数据表中找到最佳节点和最佳分枝？ 2、如何让决策树停止生长，防止过拟合？

二、sklearn库中的决策树 2.1 模块sklearn.tree

sklearn中决策树的类都在tree这个模块中，总共包括五个类：

类名含义tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_graphviz将生成的决策树导出为DOT格式，画图专用tree.ExtraTreeClassifier高随机版本的分类树tree.ExtraTreeRegressor高随机版本的回归树 2.2 sklearn建模基本流程实例化，建立评估模型对象。实例化时，需要用到的参数。通过模型接口训练模型通过模型接口提取需要信息举例分类树对应代码： from sklearn import tree#导入模块 clf=tree.DecisionTreeClassifier()#实例化 clf=clf.fit(x_train,y_train)#用训练集数据训练模型 result=clf.score(x_text,y_text)#导入测试集，从接口中调用需要的信息 2.3 决策树建模流程计算全部特征的不纯度指标选取不纯度指标最优的特征来分支在第一个特征的分支下，计算全部特征的不纯度指标选取不纯度指标最优的特征继续分支直到没有更多特征可用或整体不纯度指标已经最优，则停止生长。三、分类树 3.1构造函数

1、格式：

class sklearn.tree.DecisionTreeClassifier (criterion=gini', splitter='best, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease =0.0, min_impurity_split=None, class_weight=None, presort=False)

2、参数说明 (1)、Criterion：决策树需要找到最佳节点和最佳分支，对分类树来说，衡量这个“最佳”的指标叫做“不纯度”。不纯度越低，决策树对训练集的拟合越好。 Criterion这个参数用来决定不纯度的计算方法的。sklearn提供了两种选择：

输入entropy。使用信息熵输入gini，使用基尼系数

在这里插入图片描述其中，t表示节点，i表示标签任意分类，p（i|t）表示标签分类i在节点t上所占比例。sklearn实际计算中hi基于信息增益，即父节点与子节点信息熵之差。

两者区别：

信息熵计算更慢一些，同事决策树生长更加精细，对不纯度更加敏感。基尼系数对于高位数据或噪音很多的数据，基尼系数往往效果更好。

(2)random_state:用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

(3)splitter:用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。当然，树一旦建成，我们依然是使用剪枝参数来防止过拟合。在这里插入图片描述过拟合判断：当训练集和测试集的准确率相差很大时（例如：训练集1.0，测试集0.8）,可以认为模型过拟合。

剪枝参数：在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止。这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致，因此当一棵决策树对训练数据有了过于优秀的解释性，它找出的规则必然包含了训练样本中的噪声，并使它对未知数据的拟合程度不足。

(4)max_depth：限制树的最大深度，超过设定深度的树枝全部剪掉。在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时，建议从=3开始尝试，看看拟合的效果再决定是否增加设定深度。

（5）min_samples_leaf：限定一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生。

一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。一般来说，建议从=5开始使用。如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。对于类别不多的分类问题，=1通常就是最佳选择。

（6）min_samples_split：一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

（7）max_features：max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。max_features是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。

（8）min_impurity_decrease限制信息增益的大小，信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的功能，在0.19版本之前时使用min_impurity_split。

目标权重参数：（9）class_weight：使用class_weight参数对样本标签进行一定的均衡，给少量的标签更多的权重，让模型更偏向少数类，向捕获少数类的方向建模。该参数默认None，此模式表示自动给与数据集中的所有标签相同的权重。

（10）min_weight_fraction_leaf：搭配class_weight使用。另请注意，基于权重的剪枝参数（例如min_weight_fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

3.2 建立分类树（测试Criterion）

1、数据集描述：（1）载入数据模块

#载入模块 from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split

（2）数据展示：

wine=load_wine()#描述wine数据集数据 wine

输出结果部分截图在这里插入图片描述

wine.data.shape#描述数据集大小

输出结果：(178, 13)，表明数据集178行13列

wine.data#查看特征矩阵 wine.target#查看标签矩阵

通过数据表展示数据集：

import pandas as pd pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

输出结果：在这里插入图片描述查看数据集特征名字：

wine.feature_names

在这里插入图片描述查看标签名字：

wine.target_names

输出结果：在这里插入图片描述（3）将数据集分为训练集和测试集

Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

其中test_size=0.3表明30%数据为测试集 Xtrain表示训练集特征数据 Xtest表示测试集特征数据 Ytrain表示训练集标签数据 Ytest表示训练集标签数据（4）模型构建

clf=tree.DecisionTreeClassifier(criterion="entropy") clf=clf.fit(Xtrain,Ytrain) score=clf.score(Xtest,Ytest)#返回精确度 score

输出结果：

0.9629629629629629#每个人输出可能会不一样

（5）绘制决策树

import graphviz feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸'] dot_data=tree.export_graphviz(clf, feature_names=feature_name, class_names=["琴酒","雪莉","贝尔摩德"], filled=True,#填充颜色，颜色越深，不纯度越低 rounded=True#框的形状 ) graph=graphviz.Source(dot_data) graph

输出结果：在这里插入图片描述（6）获取特征的权重

clf.feature_importances_

输出结果：

array([0.02000566, 0. , 0. , 0. , 0. , 0. , 0.20534415, 0. , 0. , 0.30194123, 0. , 0. , 0.47270896])

将名称与权重对应：

[*zip(feature_name,clf.feature_importances_)]

输出结果：在这里插入图片描述

3.3确定最优剪枝参数：

我们以max_depth为例，通过循环语句，来确定最大深度何时最优：

test=[] Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3) for i in range(10): clf=tree.DecisionTreeClassifier(criterion="entropy" ,random_state=30 ,splitter='random' ,max_depth=i+1 # ,min_samples_leaf=10 #,min_samples_split=10 ) clf=clf.fit(Xtrain,Ytrain) score=clf.score(Xtest,Ytest) test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show()

输出结果：在这里插入图片描述因此在max_depth=3时，测试集准确率达到最高。

3.4 查看决策树属性接口

1、apply：apply中输入测试集返回每个测试样本所在的叶子节点的索引， 2、predict：输入测试集返回每个测试样本的标签。

#返回测试样本所在叶子节点的索引 print(clf.apply(Xtest)) #返回测试样本的分类/回归结果 print(clf.predict(Xtest)) 3.5 代码示例 from sklearn import tree from sklearn.datasets import load_wine from sklearn.model_selection import train_test_split import pandas as pd import graphviz import matplotlib.pyplot as plt #建立决策树模型,并绘制超参数曲线，确定最优剪枝参数 wine=load_wine() test=[] Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3) for i in range(10): clf=tree.DecisionTreeClassifier(criterion="entropy" ,random_state=30 ,splitter='random' ,max_depth=i+1 #,min_samples_leaf=i+1 #,min_samples_split=10 ) clf=clf.fit(Xtrain,Ytrain) score=clf.score(Xtest,Ytest) test.append(score) plt.plot(range(1,11),test,color="red",label="max_depth") plt.legend() plt.show() print(score)#获取得分，准确率 #画一棵决策树 feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸'] dot_data=tree.export_graphviz(clf, feature_names=feature_name, class_names=["琴酒","雪莉","贝尔摩德"], filled=True, rounded=True ) graph=graphviz.Source(dot_data) #查看特征的权重 clf.feature_importances_ #将名称与权重对应 [*zip(feature_name,clf.feature_importances_)] #返回测试样本所在叶子节点的索引 print(clf.apply(Xtest)) #返回测试样本的分类/回归结果 print(clf.predict(Xtest)) 四、回归树 4.1构造函数

1、格式：

class sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)

2、参数、 criterion：回归树衡量分枝质量的指标，支持的标准有三种：

输入"mse"使用均方误差mean squarederror(MSE)，父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差输入"mae"使用绝对平均误差MAE（mean absolute error），这种指标使用叶节点的中值来最小化L1损失当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是score代表的预测准确率）。在回归中，我们追求的是，MSE越小越好。 4.2交叉验证

定义：交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。方法：训练集和测试集的划分会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。在这里插入图片描述代码示例：均方误差（越接近0越好）：

4.3 实例：一维回归图像绘制

创建一组随机的，分布在0~5上的横坐标轴的取值(x)，然后将这一组值放到sin函数中去生成纵坐标的值(y)，接着再到y上去添加噪声。

import numpy as np from sklearn.tree import DecisionTreeRegressor import matplotlib.pyplot as plt rng = np.random.RandomState(1)#随机数种子 X = np.sort(5 * rng.rand(80,1), axis=0)#生成0-5之间随机的x取值 y = np.sin(X).ravel()#生成正弦曲线 """ #原始图像 plt.figure() plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data") plt.show() """ y[::5] += 3 * (0.5 - rng.rand(16))#添加噪声 """ #噪声图像 plt.scatter(X, y, s=20, edgecolor="black",c="blue", label="data") plt.show() """ #训练模型 regr_1 = DecisionTreeRegressor(max_depth=2) regr_2 = DecisionTreeRegressor(max_depth=5) regr_1.fit(X, y) regr_2.fit(X, y) #测试 X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]#np.newaxis增维 y_1 = regr_1.predict(X_test) y_2 = regr_2.predict(X_test) #绘制图像 plt.figure() plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data") plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2) plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2) plt.xlabel("data") plt.ylabel("target") plt.title("Decision Tree Regression") plt.legend() plt.show()

输出结果：在这里插入图片描述如果树的最大深度（由max_depth参数控制）设置得太高，则决策树学习得太精细，它从训练数据中学了很多细节，包括噪声得呈现，从而使模型偏离真实的正弦曲线，形成过拟合

【本文地址】

公司简介

联系我们