scikit

2024-07-17 09:12| 来源: 网络整理| 查看: 265

标准{“基尼”，“熵”，“log_loss”}，默认=“基尼”

衡量分割质量的函数。支持的标准是基尼杂质的“基尼”和香农信息增益的“log_loss”和“熵”，请参阅 Mathematical formulation 。

分离器{“最佳”，“随机”}，默认=“最佳”

用于在每个节点选择分裂的策略。支持的策略是“最佳”选择最佳分割和“随机”选择最佳随机分割。

max_depthint, default=None

树的最大深度。如果没有，则扩展节点，直到所有叶子都是纯的或直到所有叶子包含少于 min_samples_split 样本。

min_samples_splitint 或 float，默认=2

分裂内部节点所需的最小样本数：

如果是 int，则将 min_samples_split 视为最小数字。如果是浮点数，则 min_samples_split 是分数， ceil(min_samples_split * n_samples) 是每次分割的最小样本数。

版本 0.18 中的更改：添加了分数的浮点值。

min_samples_leafint 或 float，默认=1

叶节点所需的最小样本数。任何深度的分割点只有在左右分支中至少留下 min_samples_leaf 训练样本时才会被考虑。这可能具有平滑模型的效果，尤其是在回归中。

如果是 int，则将 min_samples_leaf 视为最小数字。如果是浮点数，则 min_samples_leaf 是分数， ceil(min_samples_leaf * n_samples) 是每个节点的最小样本数。

版本 0.18 中的更改：添加了分数的浮点值。

min_weight_fraction_leaffloat, default=0.0

叶节点处所需的（所有输入样本的）权重总和的最小加权分数。当未提供sample_weight时，样本具有相同的权重。

max_featuresint、float 或 {“auto”、“sqrt”、“log2”}，默认=无

寻找最佳分割时要考虑的特征数量：

如果是 int，则考虑每个分割处的 max_features 特征。如果是浮点数，则 max_features 是分数，并且每次分割时都会考虑 max(1, int(max_features * n_features_in_)) 特征。如果“自动”，则 max_features=sqrt(n_features) 。如果“sqrt”，则 max_features=sqrt(n_features) 。如果“log2”，则 max_features=log2(n_features) 。如果没有，则 max_features=n_features 。

自版本 1.1 起已弃用： "auto" 选项在 1.1 中已弃用，并将在 1.3 中删除。

注意：在找到至少一个节点样本的有效分区之前，对分割的搜索不会停止，即使它需要有效检查超过 max_features 的特征。

random_stateint，RandomState实例或None，默认=None

控制估计器的随机性。即使 splitter 设置为 "best" ，特征在每次分割时始终会随机排列。当 max_features < n_features 时，算法将在每次分割时随机选择 max_features ，然后找到其中的最佳分割。但是，即使 max_features=n_features ，找到的最佳分割也可能因不同的运行而异。如果标准的改进对于多个分割是相同的并且必须随机选择一个分割，则情况就是这样。为了在拟合过程中获得确定性行为， random_state 必须固定为整数。详细信息请参见 Glossary 。

max_leaf_nodesint, default=None

使用 max_leaf_nodes 以最佳优先的方式种植一棵树。最佳节点定义为杂质的相对减少。如果是 None 则叶节点数量不受限制。

min_impurity_decreasefloat, default=0.0

如果分裂导致杂质减少大于或等于该值，则节点将被分裂。

加权杂质减少方程如下：

N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)

其中 N 是样本总数， N_t 是当前节点的样本数， N_t_L 是左子节点中的样本数， N_t_R 是右子节点中的样本数。

如果 sample_weight 通过， N 、 N_t 、 N_t_R 和 N_t_L 都是指加权和。

0.19 版本中的新增功能。

class_weightdict，字典列表或“平衡”，默认=无

与 {class_label: weight} 形式的类别关联的权重。如果没有，则所有类别的权重都应该为一。对于多输出问题，可以按照与 y 的列相同的顺序提供字典列表。

请注意，对于多输出（包括多标签），应为其自己的字典中每列的每个类定义权重。例如，对于四类多标签分类权重应为 [{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}] 而不是 [{1:1}、{2:5}、{3:1}、{4:1}]。

“平衡”模式使用 y 值自动调整权重，与输入数据中的类别频率成反比，如 n_samples / (n_classes * np.bincount(y))

对于多输出，y的每一列的权重都会相乘。

请注意，如果指定了sample_weight，这些权重将与sample_weight（通过fit方法传递）相乘。

ccp_alpha非负浮点数，默认=0.0

用于最小成本复杂性修剪的复杂性参数。将选择成本复杂度最大且小于 ccp_alpha 的子树。默认情况下，不执行修剪。有关详细信息，请参阅 Minimal Cost-Complexity Pruning 。

0.22 版本中的新增功能。

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章