python进行数据预处理的4个重要步骤

您所在的位置:网站首页 python预处理后数据怎么导出 python进行数据预处理的4个重要步骤

python进行数据预处理的4个重要步骤

2024-07-16 21:35:03| 来源: 网络整理| 查看: 265

在数据科学项目中,数据预处理是最重要的事情之一。

如果有正确的数据预处理和特征工程,该模型更有可能与数据未得到很好预处理的模型相比,产生更好的结果。

数据预处理主要有4个重要步骤。

拆分训练集和测试集处理缺失值处理分类特征进行标准化处理 拆分训练集和测试集

训练集和测试集拆分是机器学习中的重要步骤之一。

这非常重要,因为你的模型需要在部署之前进行评估。

训练集和测试集拆分背后的主要思想是将原始数据集转换为两部分

训练集测试集

其中训练集由训练数据和训练标签组成,测试集由测试数据和测试标签组成。

最简单的方法是使用 scikit-learn 的 一个内置函数 train_test_split。

from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

在这里,我们在 train_test_split 中传入了 X 和 y 作为参数 ,它将 X 和 y 进行拆分,其中训练集占 80%,测试集占 20% 。

处理缺失值

你可能听说过一个著名的机器学习短语,它是

Garbage in Garbage out

如果你的数据集充满了缺失值,那么你的模型效果也不好。

因此,处理此类缺失值很重要。

让我们用一个虚拟数据集来看看我们如何解决这个问题。

首先查看一下数据集中的缺失值。

df.isna().sum()

我们可以看到数据集中有缺失值。

填充缺失值的一种方法是用该列的平均值填充。

例如,我们可以用该列所有学生的平均值来填充 Final 列的缺失值。

为此,我们可以使用 sklearn.impute 中的 SimpleImputer 。

from sklearn.impute import SimpleImputer imputer = SimpleImputer(fill_value=np.nan, startegy='mean') X = imputer.fit_transform(df)

这将使用 该列的 平均值 填充数据框 df 中的所有缺失值 。

可以使用 fit_transform 函数来做到这一点。

X = pd.DataFrame(X, columns=df.columns) print(X)

现在,可以看到所有缺失值都用均值进行了填充。

X.isna().sum()

我们也可以在 SimpleImputer 中使用 mean、 meadian、 mode 等 。

如果 缺失值的行数较少,或者我们的数据不建议填充缺失值,那么可以在 pandas 中使用 dropna 删除缺失的行。

dropedDf = df.dropna()

在这里,我们删除了数据框中的所有空行并将其存储在另一个数据框中。

dropedD.isna().sum()

处理分类特征

我们可以通过将它们转换为整数来处理分类特征。有两种常见的方法可以做到这一点。

Label EncodingOne Hot Encoding

在 Label Encoder中,将分类值转换为数字标签。假设这是我们的数据集

在 Country 列上使用 Label Encoding 会将 India 转换为 1,将 USA 转换为 2,将 China 转换为 0。

这种技术有一个缺点,即由于 USA 的标签高,它给予 USA 最高优先级,而 China 的优先级最低,标签为 0。

from sklearn.preprocessing import LabelEncoder l1 = LabelEncoder() l1.fit(catDf['Country']) catDf.Country = l1.transform(catDf.Country) print(catDf)

如代码所示,我们实例化了一个 LabelEncoder 对象,然后使用 fit 方法将其应用到分类列上,然后使用 transform 方法进行转换。

在 OneHotEncoder 中 ,我们为每个唯一的分类值创建一个新列。

下面通过一个例子来了解一下。

我们将添加另一个分类列,即 “Continent”。

catDf['Continent'] = ['Asia', 'North America', 'Asia']

现在因为我们有 2 个分类列,它们是 [[‘Country’, ‘Continent’]],我们可以对它们进行独热编码。

有两种方法可以做到这一点。

1.DataFrame.get_dummies

这是一种非常常见的方法,我们使用 pandas 内置函数 get_dummies 将数据帧中的分类值转换为独热编码。

pd.get_dummies(data=catDf)

这将 返回 一个数据帧。

在这里我们可以看到它已经将 Country 列的唯一值转换为 3 个不同的列,分别是 Country_China、Country_India 和 Country_USA。同样,Continent 列的 2 个唯一值已转换为 2 个不同的列,分别命名为 Continent_Asia 和 Continent_North America。

2.OneHotEncoder

使用 scikit-learn 中的 OneHotEncoder 也是一种常见的做法。

它提供了更多的灵活性和更多的选择,但使用起来有点困难。

让我们看看如何为我们的数据集做这件事。

from sklearn.preprocessing import OneHotEncoder oh = OneHotEncoder() s1 = pd.DataFrame(oh.fit_transform(catDf.iloc[:, [0,3]])) catDf = pd.concat([catDf, s1], axis=1)

在这里,我们已经初始化了 OneHotEncoder 对象,并在数据框中对我们想要的列(列号 0 和列号 3)上使用了它的 fit_transform方法。

fit_transform 的返回类型 是 numpy.ndarray ,所以我们通过pd.DataFrame 将其转换为数据框 ,并存储在一个变量中。

然后,为了将它加入我们的原始数据帧,可以使用 pd.concat 连接 2 个不同数据帧。

你可以看到,与 pd.get_dummies 相比,它的可读性并不清晰

但是如果你比较使用 pd.get_dummies 和 OneHotEncoder 获得的最后 5 列,它们都是相等的。

标准化数据集

某些实验证明,与未标准化的数据集相比,机器学习和深度学习模型在标准化数据集上的表现更好。

有几种方法可以做到这一点。我将讨论标准化数据集的 2 种常用方法。

1、Standard Scaler

使用这种技术,可以将数据集转化为均值为 0,标准差为 1。

from sklearn.preprocessing import StandardScaler ss = StandardScaler() catDf.iloc[:,1:-1] = ss.fit_transform(catDf.iloc[:,1:-1]) print(catDf)

2、Normalization

正则化是将 **每个样本缩放到单位范数(每个样本的范数为1)**的过程。

如果你计划使用二次型(点积)或任何其他核方法来计算两个样本之间的相似性,则此过程会很有用。

Normalization 主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。

使用过程非常简单,与 StandaradScaler 类似。

from sklearn.preprocessing import Normalizer norm = Normalizer() catDf.iloc[:,1:-1] = norm.fit_transform(catDf.iloc[:,1:-1]) catDf

---------------------------END--------------------------- 题外话

在这里插入图片描述

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

六、面试宝典

在这里插入图片描述

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

若有侵权,请联系删除



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭