数值离散化

2023-04-14 01:39| 来源: 网络整理| 查看: 265

为什么要数值离散化

https://www.zhihu.com/question/31989952/answer/54184582

对异常数据有很强的鲁棒性。比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；离散化后可以进行特征交叉 。数值特征不能交叉，离散变量才能交叉；对LR来看，能够提升模型学习能力 。单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，；较少对数值的敏感性，加强模型的鲁棒性。比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；

模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。

离散化技术

首先，对数值进行排序。然后再离散化。

2.1 无监督技术分桶。给出一个边界。按边界进行分桶分箱。按百分位进行分箱。包括 “等宽和等频”。k-means聚类。

google WDL论文提到的：先用累计分布函数CDF归一化到[0,1]，再分桶。 ** 其实这就是“等频分箱” **

Continuous real-valued features are normalized to [0, 1] by mapping a feature value x to its cumulative distribution function P(X ≤ x), divided into nqnq quantiles. The normalized value is i−1nq−1i−1nq−1for values in the i-th quantiles.2.2 有监督技术利用信息熵和信息增益进行分类。信息增益最大值作为分割点，一分为二。ID3决策树就是采用该分类法。离散结果评估人为判断：抽样观察是否合适。数据判断：使用k-means聚类时，会面临一个问题。k究竟=？合适。这里就会用到一个评估，这个评估同样适合做离散结果评估。评估的方法是，** sum(组内距离) ** 最小,即 km$tot.withinss

【本文地址】

公司简介

联系我们