LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子) |
您所在的位置:网站首页 › hkcnb32f参数 › LightGBM 重要参数、方法、函数理解及调参思路、网格搜索(附例子) |
文章目录
一、LightGBM 原生接口重要参数训练参数预测方法绘制特征重要性分类例子回归例子
二、LightGBM 的 sklearn 风格接口LGBMClassifier基本使用例子
LGBMRegressor基本使用例子
三、LightGBM 调参思路四、参数网格搜索
与 xgboost 类似,LightGBM包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:LightGBM 相关知识理解 一、LightGBM 原生接口 重要参数boosting / boost / boosting_type 用于指定弱学习器的类型,默认值为 ‘gbdt’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。 可选的参数值有: ‘gbdt’,使用梯度提升树‘rf’,使用随机森林‘dart’,不太了解,官方解释为 Dropouts meet Multiple Additive Regression Trees‘goss’,使用单边梯度抽样算法,速度很快,但是可能欠拟合。推荐设置为 'gbdt’ objective / application 用于指定学习任务及相应的学习目标,常用的可选参数值如下: “regression”,使用L2正则项的回归模型(默认值)。“regression_l1”,使用L1正则项的回归模型。“mape”,平均绝对百分比误差。“binary”,二分类。“multiclass”,多分类。num_class 用于设置多分类问题的类别个数。 min_child_samples 叶节点样本的最少数量,默认值20,用于防止过拟合。 learning_rate / eta LightGBM 不完全信任每个弱学习器学到的残差值,为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。 推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1] max_depth 指定树的最大深度,默认值为-1,表示不做限制,合理的设置可以防止过拟合。 推荐的数值为:[3, 5, 6, 7, 9, 12, 15, 17, 25]。 num_leaves 指定叶子的个数,默认值为31,此参数的数值应该小于 2 m a x _ d e p t h 2^{max\_depth} 2max_depth。 feature_fraction / colsample_bytree 构建弱学习器时,对特征随机采样的比例,默认值为1。 推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1] bagging_fraction / subsample 默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。 注意: bagging_freq 设置为非0值时才生效。 推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1] bagging_freq / subsample_freq 数值型,默认值0,表示禁用样本采样。如果设置为整数 z ,则每迭代 k 次执行一次采样。 lambda_l1 L1正则化权重项,增加此值将使模型更加保守。 推荐的候选值为:[0, 0.01~0.1, 1] lambda_l2 L2正则化权重项,增加此值将使模型更加保守。 推荐的候选值为:[0, 0.1, 0.5, 1] min_gain_to_split / min_split_gain 指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。 **推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] ** min_sum_hessian_in_leaf / min_child_weight 指定孩子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。 推荐的候选值为:[1, 3, 5, 7] metric 用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下: ‘mae’,用于回归任务,效果与 ‘mean_absolute_error’, ‘l1’ 相同。‘mse’,用于回归任务,效果与 ‘mean_squared_error’, ‘l2’ 相同。‘rmse’,用于回归任务,效果与 ‘root_mean_squared_error’, ‘l2_root’ 相同。‘auc’,用于二分类任务。‘binary’,用于二分类任务。‘binary_logloss’,用于二分类任务。‘binary_error’,用于二分类任务。‘multiclass’,用于多分类。‘multi_logloss’, 用于多分类。‘multi_error’, 用于多分类。seed / random_state 指定随机数种子。 训练参数以lightgbm.train为主,参数及默认值如下: lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, feature_name='auto', categorical_feature='auto', early_stopping_rounds=None, evals_result=None, verbose_eval=True, learning_rates=None, keep_training_booster=False, callbacks=None)1,params 字典类型,用于指定各种参数,例如:{‘booster’:‘gbtree’,‘eta’:0.1} 2,train_set 用于训练的数据,通过给下面的方法传递数据和标签来构造: train_data = lgb.Dataset(train_x, train_y)3,num_boost_round 指定最大迭代次数,默认值为10 4,valid_sets 列表类型,用于指定训练过程中用于评估的数据及数据的名称。例如:[train_data, valid_data] train_data = lgb.Dataset(train_x, train_y) valid_data = lgb.Dataset(valid_x, valid_y, reference=train)5,fobj 可以指定二阶可导的自定义目标函数。 6,feval 自定义评估函数。 7,categorical_feature 指定哪些是类别特征。 8,early_stopping_rounds 指定迭代多少次没有得到优化则停止训练,默认值为None,表示不提前停止训练。 注意:valid_sets 必须非空才能生效,如果有多个数据集,则以最后一个数据集为准。 9,verbose_eval 可以是bool类型,也可以是整数类型。如果设置为整数,则每间隔verbose_eval次迭代就输出一次信息。 10,init_model 加载之前训练好的 lgb 模型,用于增量训练。 预测方法 predict(data, num_iteration=None)参数说明: data:string, numpy array, pandas DataFramenum_iteration:选择第几次迭代用于预测,如果使用了 early_stopping_rounds,那么最佳的一次迭代将被使用注意,对于分类问题,predict 方法返回的是属于各个类别的概率,需要执行下面的语句才能获取到预测的类别: y_pred = model.predict(X_test) y_pred = np.argmax(y_pred, axis=1) 绘制特征重要性代码如下: from lightgbm import plot_importance # 显示重要特征,max_num_features 指定显示多少个特征 plot_importance(lgb_model, max_num_features) plt.show() 分类例子 from sklearn.datasets import load_iris import lightgbm as lgb from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 iris = load_iris() X,y = iris.data,iris.target # 数据集分割 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457) # 参数 params = { 'booster': 'gbtree', 'objective': 'multiclass', 'num_class': 3, 'num_leaves': 31, 'subsample': 0.8, 'bagging_freq': 1, 'feature_fraction ': 0.8, 'slient': 1, 'learning_rate ': 0.01, 'seed': 0 } # 构造训练集 dtrain = lgb.Dataset(X_train,y_train) dtest = lgb.Dataset(X_test,y_test) num_rounds = 500 # xgboost模型训练 model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest], verbose_eval=100, early_stopping_rounds=100) # 对测试集进行预测 y_pred = model.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, np.argmax(y_pred, axis=1)) print('accuarcy:%.2f%%'%(accuracy*100)) # 显示重要特征 plot_importance(model) plt.show()输出结果: Training until validation scores don't improve for 100 rounds. [100] training's multi_logloss: 0.0200407 valid_1's multi_logloss: 0.16259 Early stopping, best iteration is: [58] training's multi_logloss: 0.0522685 valid_1's multi_logloss: 0.113599 accuarcy:96.67% 回归例子 from sklearn.datasets import load_boston import lightgbm as lgb from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # 加载波士顿房价预测数据集 boston = load_boston() X,y = boston.data,boston.target # 数据集分割 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0) params = { 'booster': 'gbtree', 'objective': 'regression', 'num_leaves': 31, 'subsample': 0.8, 'bagging_freq': 1, 'feature_fraction ': 0.8, 'slient': 1, 'learning_rate ': 0.01, 'seed': 0 } # 构造训练集 dtrain = lgb.Dataset(X_train,y_train) dtest = lgb.Dataset(X_test,y_test) num_rounds = 500 # xgboost模型训练 model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest], verbose_eval=100, early_stopping_rounds=100) # 对测试集进行预测 y_pred = model.predict(X_test) print('mse:', mean_squared_error(y_test, y_pred)) # 显示重要特征 plot_importance(model) plt.show()输出: Training until validation scores don't improve for 100 rounds. [100] training's l2: 1.98858 valid_1's l2: 22.4685 [200] training's l2: 0.76671 valid_1's l2: 21.9116 Early stopping, best iteration is: [141] training's l2: 1.29078 valid_1's l2: 21.7546 mse: 21.754638427136342 二、LightGBM 的 sklearn 风格接口 LGBMClassifier 基本使用LGBMClassifier的引入以及重要参数的默认值如下: from lightgbm import LGBMClassifier # 重要参数: lgb_model = LGBMClassifier( boosting_type='gbdt', num_leaves=31, max_depth=-1, learning_rate=0.1, n_estimators=100, objective='binary', # 默认是二分类 min_split_gain=0.0, min_child_samples=20, subsample=1.0, subsample_freq=0, colsample_bytree=1.0, reg_alpha=0.0, reg_lambda=0.0, random_state=None, silent=True )其中绝大多数的参数在上文已经说明,不再赘述。 与原生的LightGBM相比,LGBMClassifier并不是调用train方法进行训练,而是使用fit方法: lgb_model.fit( X, # array, DataFrame 类型 y, # array, Series 类型 eval_set=None, # 用于评估的数据集,例如:[(X_train, y_train), (X_test, y_test)] eval_metric=None, # 评估函数,字符串类型,例如:'l2', 'logloss' early_stopping_rounds=None, verbose=True # 设置为正整数表示间隔多少次迭代输出一次信息 )预测的方法有两种: lgb_model.predict(data) # 返回预测值 lgb_model.predict_proba(data) # 返回各个样本属于各个类别的概率 例子 from lightgbm import LGBMClassifier from sklearn.datasets import load_iris from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载样本数据集 iris = load_iris() X,y = iris.data,iris.target X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343) model = LGBMClassifier( max_depth=3, learning_rate=0.1, n_estimators=200, # 使用多少个弱分类器 objective='multiclass', num_class=3, booster='gbtree', min_child_weight=2, subsample=0.8, colsample_bytree=0.8, reg_alpha=0, reg_lambda=1, seed=0 # 随机数种子 ) model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=100, early_stopping_rounds=50) # 对测试集进行预测 y_pred = model.predict(X_test) model.predict_proba #计算准确率 accuracy = accuracy_score(y_test,y_pred) print('accuracy:%3.f%%'%(accuracy*100)) # 显示重要特征 plot_importance(model) plt.show()输出: Training until validation scores don't improve for 50 rounds. Early stopping, best iteration is: [42] training's multi_logloss: 0.0831629 valid_1's multi_logloss: 0.183711 accuracy: 97% LGBMRegressor 基本使用XGBRegressor与XGBClassifier类似,其引入以及重要参数的默认值如下: from lightgbm import LGBMRegressor # 重要参数: lgb_model = LGBMRegressor( boosting_type='gbdt', num_leaves=31, max_depth=-1, learning_rate=0.1, n_estimators=100, objective='regression', # 默认是二分类 min_split_gain=0.0, min_child_samples=20, subsample=1.0, subsample_freq=0, colsample_bytree=1.0, reg_alpha=0.0, reg_lambda=0.0, random_state=None, silent=True )其 fit 方法、predict方法与 LGBMClassifier几乎相同,不再重复说明。 例子 from lightgbm import LGBMRegressor from lightgbm import plot_importance import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.datasets import load_boston from sklearn.metrics import mean_squared_error # 导入数据集 boston = load_boston() X ,y = boston.data,boston.target X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0) model = LGBMRegressor( boosting_type='gbdt', num_leaves=31, max_depth=-1, learning_rate=0.1, n_estimators=100, objective='regression', # 默认是二分类 min_split_gain=0.0, min_child_samples=20, subsample=1.0, subsample_freq=0, colsample_bytree=1.0, reg_alpha=0.0, reg_lambda=0.0, random_state=None, silent=True ) model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=100, early_stopping_rounds=50) # 对测试集进行预测 y_pred = model.predict(X_test) mse = mean_squared_error(y_test,y_pred) print('mse', mse) # 显示重要特征 plot_importance(model) plt.show()输出: Training until validation scores don't improve for 50 rounds. [100] training's l2: 1.99687 valid_1's l2: 24.4987 Did not meet early stopping. Best iteration is: [100] training's l2: 1.99687 valid_1's l2: 24.4987 mse 24.498696726728348 三、LightGBM 调参思路(1)选择较高的学习率,例如0.1,这样可以减少迭代用时。 (2)然后对 max_depth, num_leaves, min_data_in_leaf, min_split_gain, subsample, colsample_bytree 这些参数进行调整。 其中,num_leaves < 2 m a x _ d e p t h 2^{max\_depth} 2max_depth。而 min_data_in_leaf 是一个很重要的参数, 也叫min_child_samples,它的值取决于训练数据的样本个树和num_leaves. 将其设置的较大可以避免生成一个过深的树, 但有可能导致欠拟合。 其他参数的合适候选值为: max_depth:[3, 5, 6, 7, 9, 12, 15, 17, 25]min_split_gain:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1]subsample:[0.6, 0.7, 0.8, 0.9, 1]colsample_bytree:[0.6, 0.7, 0.8, 0.9, 1](3)调整正则化参数 reg_lambda , reg_alpha,这些参数的合适候选值为: reg_alpha:[0, 0.01~0.1, 1]reg_lambda :[0, 0.1, 0.5, 1](4)降低学习率,继续调整参数,学习率合适候选值为:[0.01, 0.015, 0.025, 0.05, 0.1] 四、参数网格搜索 from sklearn.datasets import load_iris import lightgbm as lgb from sklearn.model_selection import GridSearchCV # Perforing grid search from sklearn.model_selection import train_test_split # 加载样本数据集 iris = load_iris() X,y = iris.data,iris.target X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343) train_x, valid_x, train_y, valid_y = train_test_split(X, y, test_size=0.333, random_state=0) # 分训练集和验证集 train = lgb.Dataset(train_x, train_y) valid = lgb.Dataset(valid_x, valid_y, reference=train) parameters = { 'max_depth': [15, 20, 25, 30, 35], 'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15], 'feature_fraction': [0.6, 0.7, 0.8, 0.9, 0.95], 'bagging_fraction': [0.6, 0.7, 0.8, 0.9, 0.95], 'bagging_freq': [2, 4, 5, 6, 8], 'lambda_l1': [0, 0.1, 0.4, 0.5, 0.6], 'lambda_l2': [0, 10, 15, 35, 40], 'cat_smooth': [1, 10, 15, 20, 35] } gbm = LGBMClassifier(max_depth=3, learning_rate=0.1, n_estimators=200, # 使用多少个弱分类器 objective='multiclass', num_class=3, booster='gbtree', min_child_weight=2, subsample=0.8, colsample_bytree=0.8, reg_alpha=0, reg_lambda=1, seed=0 # 随机数种子 ) # 有了gridsearch我们便不需要fit函数 gsearch = GridSearchCV(gbm, param_grid=parameters, scoring='accuracy', cv=3) gsearch.fit(train_x, train_y) print("Best score: %0.3f" % gsearch.best_score_) print("Best parameters set:") best_parameters = gsearch.best_estimator_.get_params() for param_name in sorted(parameters.keys()): print("\t%s: %r" % (param_name, best_parameters[param_name]))参考文章: Parameters lightgbm.LGBMClassifier lightgbm.LGBMRegressor LightGBM核心解析与调参 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |