机器学习知识点:模型加权集成7种方法

您所在的位置:网站首页 如何加权计算综合得分的方法 机器学习知识点:模型加权集成7种方法

机器学习知识点:模型加权集成7种方法

2024-07-01 02:26:45| 来源: 网络整理| 查看: 265

在竞赛中如果对多个预测结果进行集成,最方便的做法是直接对预测结果进行加权求和。此时不同任务,加权方法不同:

分类任务:类别投票 & 概率值加权

回归任务:预测值加权

排序任务:排序次序加权

目标检测任务:预测结果NMS

语义分割任务:像素类别投票 & 加权

在本文中我们将介绍最常见的分类 & 回归任务的结果加权方法,也就是Blend操作。

文章目录 技术提升多样性 & 精度差异Out of fold方法1:均值加权方法2:权重加权方法3:排序加权方法4:排序权重加权方法5:爬山法加权方法6:线性回归加权方法7:参数优化加权

技术提升

项目代码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:dkl88191,备注:来自CSDN 方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

多样性 & 精度差异

在对结果进行集成时需要考虑如下两点:

模型的多样性:

模型的精度差异;

集成学习的精度收益是需要模型&预测结果的多样性,如果多样性不足,则最终预测结果和单个模型类似。

精度差异是指模型之间的精度差异,如果精度差异很大最终集成的效果也不会很好。如下情况2的模型精度差异就较大。

三个模型精度:[0.9, 0.92, 0.92] 三个模型精度:[0.9, 0.8, 0.7] Out of fold

Out of fold又名袋外预测,是一个模型在交叉验证的过程中使用训练部分进行训练,然后对验证集进行预测,交替得到训练集和测试集预测结果。

如果我们拥有三个模型,通过交叉验证可以得到3个训练集预测结果和3个验证集预测结果。

如下展示的几种方法,都需要训练集标签 与 训练集预测结果搜索得到参数,然后将参数在测试集上进行使用。

方法1:均值加权

原理:对所有模型的预测结果计算均值;

优点:简单,过拟合可能性低;

缺点:会受到模型原始精度差异的影响;

oof_preds = [] for col in oofCols: oof_preds.append(oof_df[col]) y_avg = np.mean(np.array(oof_preds), axis=0) 方法2:权重加权

原理:对所有模型的预测结果加权求和;

优点:比均值更加可控;

缺点:权重需人工设置,更容易过拟合;

weights = [1,2,3] y_wtavg = np.zeros(len(oof_df)) for wt, col in zip(weights, oofCols): y_wtavg += (wt*oof_df[col]) y_wtavg = y_wtavg / sum(weights) 方法3:排序加权

原理:对预测结果进行排序,使用次序代替原始取值;

优点:适合分类任务,对概率进行集成;

缺点:会受到模型原始精度差异的影响;

rankPreds = [] for i, col in enumerate(oofCols): rankPreds.append(oof_df[col].rank().values) y_rankavg = np.mean(np.array(rankPreds), axis=0) 方法4:排序权重加权

原理:对预测结果进行排序,使用次序进行加权求和;

优点:比均值更加可控;

缺点:权重需人工设置,更容易过拟合;

rankPreds = [] weights = [1,2,3] for i, col in enumerate(oofCols): rankPreds.append(oof_df[col].rank().values * weights[i]) y_rankavg = np.mean(np.array(rankPreds), axis=0) 方法5:爬山法加权

原理:权重进行搜索,保留最优的权重;

优点:可以自动权重权重大小;

缺点:更容易过拟合;

for w1 in np.linspace(0, 1, 100): for w2 in np.linspace(0, w2, 100): w3 = 1 - w1 - w3 如果 w1, w2, w3取得更好的精度,保留权重 否则尝试下一组权重组合 方法6:线性回归加权

原理:使用线性回归确定权重

优点:可以自动权重权重大小;

缺点:需要额外训练,容易过拟合;

from sklearn.linear_model import LinearRegression lr = LinearRegression(fit_intercept=False) lr.fit( 三个模型对训练集预测结果, 训练集标签 ) lr.coef_ # 线性回归的权重 方法7:参数优化加权

原理:使用优化方法搜索权重

优点:可以自动权重权重大小;

缺点:需要额外训练,容易过拟合;

def f(x): return x[0]**2 + x[1]**2 + (5 - x[0] - x[1]) from scipy import optimize minimum = optimize.fmin(f, [1, 1])


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭