特征选择（Feature Selection）

2024-07-14 12:12| 来源: 网络整理| 查看: 265

主要内容：为什么要进行特征选择？什么是特征选择？怎么进行特征选择特征选择：

在现实生活中，一个对象往往具有很多属性（以下称为特征），这些特征大致可以被分成三种主要的类型：

相关特征：对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果；无关特征：对于我们的算法没有任何帮助，不会给算法的效果带来任何提升；冗余特征：不会对我们的算法带来新的信息，或者这种特征的信息可以由其他的特征推断出；

但是对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中，经常会出现维度灾难问题，尤其是在文本处理中。例如，可以把一篇文档表示成一个词向量，但是往往会使用所有的单词作为字典，因此对于一篇可能仅仅包含100或者200个单词的文档，可能需要上万的维度（也就是特征）。如果可以从中选择一部分相关特征构建模型，这个问题就可以得到一定程度的解决。所以，特征选择和降维有一定的相似之处。另外，从上面的例子中可以发现，如果只选择所有特征中的部分特征构建模型，那么可以大大减少学习算法的运行时间，也可以增加模型的可解释性。

因此，进行特征选择的主要目的：

降维降低学习任务的难度提升模型的效率

定义：

从N个特征中选择其中M（MR时，是一种自下而上的方法，从空集开始搜索，每次使用SFS增加L个特征，然后用SBS从中去掉R个特征；当L

【本文地址】

公司简介

联系我们