day04 | 您所在的位置:网站首页 › excel两组数据相关性画图 › day04 |
特征处理之特征降维
一、特征选择Filter(过滤式)1,低方差特征过滤2、相关系数
Embedded (嵌入式)
二、主成分分析(PCA)
特征降维:如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大。降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程 降维的两种方式 1,特征选择 2,主成分分析(可以理解一种特征提取的方式) 一、特征选择定义:数据中包含冗余或无关变量(或称特征、属性、指标等),特征选择旨在从原有特征中找出主要特征。 两种方法: 1,Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联 方差选择法:低方差特征过滤相关系数2,Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联) 决策树:信息熵、信息增益正则化:L1、L2深度学习:卷积等模块 sklearn.feature_selection Filter(过滤式) 1,低方差特征过滤特征方差小表示某个特征大多样本的值比较相近,特征方差大表示某个特征很多样本的值都有差别,低方差特征过滤则是删除低方差的一些特征 API sklearn.feature_selection.VarianceThreshold(threshold = 0.0) # 删除所有低方差特征 Variance.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。实操:筛选股票财务指标 对某些股票的指标特征进行筛选,数据在"factor_returns.csv"文件中,要求除去’index,‘date’,'return’列不考虑,所有特征如下。 皮尔逊相关系数:反映变量之间相关关系密切程度的统计指标,根据该指标来选择特征降维。 特点: 相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下: 当r>0时,表示两变量正相关,r |
CopyRight 2018-2019 实验室设备网 版权所有 |