特征选择(Feature Selection) | 您所在的位置:网站首页 › 简述监督的特征是什么 › 特征选择(Feature Selection) |
主要内容:
为什么要进行特征选择?什么是特征选择?怎么进行特征选择
特征选择:
在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型: 相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果;无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出;但是对于一个特定的学习算法来说,哪一个特征是有效的是未知的。因此,需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中,经常会出现维度灾难问题,尤其是在文本处理中。例如,可以把一篇文档表示成一个词向量,但是往往会使用所有的单词作为字典,因此对于一篇可能仅仅包含100或者200个单词的文档,可能需要上万的维度(也就是特征)。如果可以从中选择一部分相关特征构建模型,这个问题就可以得到一定程度的解决。所以,特征选择和降维有一定的相似之处。另外,从上面的例子中可以发现,如果只选择所有特征中的部分特征构建模型,那么可以大大减少学习算法的运行时间,也可以增加模型的可解释性。 因此,进行特征选择的主要目的: 降维降低学习任务的难度提升模型的效率定义: 从N个特征中选择其中M(MR时,是一种自下而上的方法,从空集开始搜索,每次使用SFS增加L个特征,然后用SBS从中去掉R个特征;当L |
CopyRight 2018-2019 实验室设备网 版权所有 |