scikit 您所在的位置:网站首页 决策树entropy和gini的区别 scikit

scikit

2024-07-17 09:12| 来源: 网络整理| 查看: 265

标准{“基尼”,“熵”,“log_loss”},默认=“基尼”

衡量分割质量的函数。支持的标准是基尼杂质的“基尼”和香农信息增益的“log_loss”和“熵”,请参阅 Mathematical formulation 。

分离器{“最佳”,“随机”},默认=“最佳”

用于在每个节点选择分裂的策略。支持的策略是“最佳”选择最佳分割和“随机”选择最佳随机分割。

max_depthint, default=None

树的最大深度。如果没有,则扩展节点,直到所有叶子都是纯的或直到所有叶子包含少于 min_samples_split 样本。

min_samples_splitint 或 float,默认=2

分裂内部节点所需的最小样本数:

如果是 int,则将 min_samples_split 视为最小数字。 如果是浮点数,则 min_samples_split 是分数, ceil(min_samples_split * n_samples) 是每次分割的最小样本数。

版本 0.18 中的更改:添加了分数的浮点值。

min_samples_leafint 或 float,默认=1

叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果,尤其是在回归中。

如果是 int,则将 min_samples_leaf 视为最小数字。 如果是浮点数,则 min_samples_leaf 是分数, ceil(min_samples_leaf * n_samples) 是每个节点的最小样本数。

版本 0.18 中的更改:添加了分数的浮点值。

min_weight_fraction_leaffloat, default=0.0

叶节点处所需的(所有输入样本的)权重总和的最小加权分数。当未提供sample_weight时,样本具有相同的权重。

max_featuresint、float 或 {“auto”、“sqrt”、“log2”},默认=无

寻找最佳分割时要考虑的特征数量:

如果是 int,则考虑每个分割处的 max_features 特征。 如果是浮点数,则 max_features 是分数,并且每次分割时都会考虑 max(1, int(max_features * n_features_in_)) 特征。 如果“自动”,则 max_features=sqrt(n_features) 。 如果“sqrt”,则 max_features=sqrt(n_features) 。 如果“log2”,则 max_features=log2(n_features) 。 如果没有,则 max_features=n_features 。

自版本 1.1 起已弃用: "auto" 选项在 1.1 中已弃用,并将在 1.3 中删除。

注意:在找到至少一个节点样本的有效分区之前,对分割的搜索不会停止,即使它需要有效检查超过 max_features 的特征。

random_stateint,RandomState实例或None,默认=None

控制估计器的随机性。即使 splitter 设置为 "best" ,特征在每次分割时始终会随机排列。当 max_features < n_features 时,算法将在每次分割时随机选择 max_features ,然后找到其中的最佳分割。但是,即使 max_features=n_features ,找到的最佳分割也可能因不同的运行而异。如果标准的改进对于多个分割是相同的并且必须随机选择一个分割,则情况就是这样。为了在拟合过程中获得确定性行为, random_state 必须固定为整数。详细信息请参见 Glossary 。

max_leaf_nodesint, default=None

使用 max_leaf_nodes 以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果是 None 则叶节点数量不受限制。

min_impurity_decreasefloat, default=0.0

如果分裂导致杂质减少大于或等于该值,则节点将被分裂。

加权杂质减少方程如下:

N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)

其中 N 是样本总数, N_t 是当前节点的样本数, N_t_L 是左子节点中的样本数, N_t_R 是右子节点中的样本数。

如果 sample_weight 通过, N 、 N_t 、 N_t_R 和 N_t_L 都是指加权和。

0.19 版本中的新增功能。

class_weightdict,字典列表或“平衡”,默认=无

与 {class_label: weight} 形式的类别关联的权重。如果没有,则所有类别的权重都应该为一。对于多输出问题,可以按照与 y 的列相同的顺序提供字典列表。

请注意,对于多输出(包括多标签),应为其自己的字典中每列的每个类定义权重。例如,对于四类多标签分类权重应为 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] 而不是 [{1:1}、{2:5}、{3:1}、{4:1}]。

“平衡”模式使用 y 值自动调整权重,与输入数据中的类别频率成反比,如 n_samples / (n_classes * np.bincount(y))

对于多输出,y的每一列的权重都会相乘。

请注意,如果指定了sample_weight,这些权重将与sample_weight(通过fit方法传递)相乘。

ccp_alpha非负浮点数,默认=0.0

用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下,不执行修剪。有关详细信息,请参阅 Minimal Cost-Complexity Pruning 。

0.22 版本中的新增功能。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有