day04 您所在的位置:网站首页 excel两组数据相关性画图 day04

day04

2023-06-06 04:36| 来源: 网络整理| 查看: 265

特征处理之特征降维 一、特征选择Filter(过滤式)1,低方差特征过滤2、相关系数 Embedded (嵌入式) 二、主成分分析(PCA)

特征降维:如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大。降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

降维的两种方式 1,特征选择 2,主成分分析(可以理解一种特征提取的方式)

一、特征选择

定义:数据中包含冗余或无关变量(或称特征、属性、指标等),特征选择旨在从原有特征中找出主要特征。

两种方法: 1,Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联

方差选择法:低方差特征过滤相关系数

2,Embedded (嵌入式):算法自动选择特征(特征与目标值之间的关联)

决策树:信息熵、信息增益正则化:L1、L2深度学习:卷积等

模块

sklearn.feature_selection Filter(过滤式) 1,低方差特征过滤

特征方差小表示某个特征大多样本的值比较相近,特征方差大表示某个特征很多样本的值都有差别,低方差特征过滤则是删除低方差的一些特征

API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0) # 删除所有低方差特征 Variance.fit_transform(X) X:numpy array格式的数据[n_samples,n_features] 返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

实操:筛选股票财务指标 对某些股票的指标特征进行筛选,数据在"factor_returns.csv"文件中,要求除去’index,‘date’,'return’列不考虑,所有特征如下。 在这里插入图片描述

import pandas as pd from sklearn.feature_selection import VarianceThreshold data = pd.read_csv("factor_returns.csv") print(data) print("初始形状:\n", data.shape) # 实例化一个转换器类 transfer = VarianceThreshold(threshold=1) # 调用 fit_transform data = transfer.fit_transform(data.iloc[:, 1:10]) print("删除低方差特征的结果:\n", data) print("降维后形状:\n", data.shape) 2、相关系数

皮尔逊相关系数:反映变量之间相关关系密切程度的统计指标,根据该指标来选择特征降维。

特点: 相关系数的值介于–1与+1之间,即–1≤ r ≤+1。其性质如下:

当r>0时,表示两变量正相关,r


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有