数值离散化 您所在的位置:网站首页 离散变量的数值 数值离散化

数值离散化

2023-04-14 01:39| 来源: 网络整理| 查看: 265

为什么要数值离散化

https://www.zhihu.com/question/31989952/answer/54184582

对异常数据有很强的鲁棒性。比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;离散化后可以进行特征交叉 。数值特征不能交叉,离散变量才能交叉;对LR来看,能够提升模型学习能力 。单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,;较少对数值的敏感性,加强模型的鲁棒性。 比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;

模型是使用离散特征还是连续特征,其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。 既可以离散化用线性模型,也可以用连续特征加深度学习。 就看是喜欢折腾特征还是折腾模型了。通常来说,前者容易,而且可以n个人一起并行做,有成功经验;后者目前看很赞,能走多远还须拭目以待。

离散化技术

首先,对数值进行排序。然后再离散化。

2.1 无监督技术分桶。 给出一个边界。按边界进行分桶分箱。按百分位进行分箱。包括 “等宽和等频”。k-means聚类。

google WDL论文提到的: 先用累计分布函数CDF归一化到[0,1],再分桶。 ** 其实这就是“等频分箱” **

Continuous real-valued features are normalized to [0, 1] by mapping a feature value x to its cumulative distribution function P(X ≤ x), divided into nqnq quantiles. The normalized value is i−1nq−1i−1nq−1for values in the i-th quantiles.2.2 有监督技术利用信息熵和信息增益进行分类。信息增益最大值作为分割点,一分为二。ID3决策树就是采用该分类法。离散结果评估人为判断:抽样观察是否合适。数据判断:使用k-means聚类时,会面临一个问题。k究竟=?合适。这里就会用到一个评估,这个评估同样适合做离散结果评估。 评估的方法是,** sum(组内距离) ** 最小,即 km$tot.withinss


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有