【Python】实训5：使用pandas进行数据预处理( lagrange插值、merge合并、标准化)

您所在的位置：网站首页 › 线上健身私教课多少钱一节 › 【Python】实训5：使用pandas进行数据预处理( lagrange插值、merge合并、标准化)

【Python】实训5：使用pandas进行数据预处理( lagrange插值、merge合并、标准化)

2024-07-07 07:09:48| 来源: 网络整理| 查看: 265

题目来源：《Python数据分析与应用》第5章【黄红梅、张良均主编中国工信出版集团和人民邮电出版社】

本博客题目文字主要来自：全能扫描王文字识别转换（敲题目是不可能去敲题目的）

数据集下载链接(下载后找到第6章->实训数据)

实训1 插补用户用电量数据缺失值

1.训练要点 (1)掌握缺失值识别方法。 (2)掌握对缺失值数据处理的方法。

2、需求说明用户用电量数据呈现一定的周期性关系, missing data.csv表中存放了用户A、用户B和用户C的用电量数据,其中存在缺失值,需要进行缺失值插补才能进行下一步分析。

3.实现思路及步骤 (1)读取 missinne_data. csv表中的数据。 (2)查询缺失值所在位置。 (3)使用 SciPy库中 interpolate模块中的 lagrange对数据进行拉格朗日插值。 (4)查看数据中是否存在缺失值,若不存在则说明插值成功。

#实训1 插补用户用电量数据缺失值 import pandas as pd import numpy as np arr=np.array([0,1,2]) missing_data=pd.read_csv("./实训数据/missing_data.csv",names=arr) #查询缺失值所在位置 print("lagrange插值前（False为缺失值所在位置）",'\n',missing_data.notnull()) #拉格朗日插值 #dropna().index用于记录非缺失值的下标 #dropna().values用于记录非缺失值的实际值 from scipy.interpolate import lagrange for i in range(0,3): #"训练"lagrange模型 la=lagrange(missing_data.loc[:,i].dropna().index,missing_data.loc[:,i].dropna().values) #list_d用于记录当前列缺失值所在的行（记录缺失值下标） list_d=list(set(np.arange(0,21)).difference(set(missing_data.loc[:,i].dropna().index))) #将缺失值list_d带入训练好的模型，并填入对应的位置 missing_data.loc[list_d,i]=la(list_d) print("第%d列缺失值的个数为:%d"%(i,missing_data.loc[:,i].isnull().sum())) print("lagrange插值后（False为缺失值所在位置）","\n",missing_data.notnull())

在这里插入图片描述

实训2 合并线损、用电量趋势与线路告警数据

1.训练要点 (1)掌握主键合并的几种方法。 (2)掌握多个键值的主键合并。

2.需求说明线路线损数据、线路用电量趋势下降数据和线路告警数据是识别用户窃漏电与否的个重要特征,需要对由线路编号(ID)和时间(date)两个键值构成的主键进行合并。

3.实现思路及步骤 (1)读取 ele_loss. csv和 alarm csy表。 (2)查看两表的形状。 (3)以ID和date两个键值作为主键进行内连接。 4)查看合并后的数据。

#实训2 合并线损、用电量趋势与线路告警数据 import pandas as pd ele_loss=pd.read_csv("./实训数据/ele_loss.csv") alarm=pd.read_csv("./实训数据/alarm.csv", encoding='gbk') #查看两个表的形状 print("ele_loss表的形状为",ele_loss.shape) print("alarm表的形状为",alarm.shape) #合并后的数据 merge=pd.merge(ele_loss,alarm,left_on=["ID","date"],right_on=["ID","date"],how="inner") print("合并后的表形状为：",merge.shape) print("合并后的表为：",merge) 在这里插入图片描述

实训3 标准化建模专家样本数据

1.训练要点 (1)掌握数据标准化的原理 (2)掌握数据标准化的方法。

2.需求说明算法的种类非常多,一旦涉及空间距离计算、梯度下降等,就必须进行标准化处理对线路线损特征、线路用电量趋势下降特征、线路告警特征进行标准化。

3.实现思路及步骤 (1)读取model.csv数据。 (2)定义标准差标准化函数。 (3)使用函数分别对3列数据进行标准化。 (4)查看标准化后的数据

#实训3 标准化建模专家样本数据 import pandas as pd model=pd.read_csv("./实训数据/model.csv",encoding = "gbk") def Standard(data): data=(data-data.mean())/data.std() return data S=Standard(model) print("标准化后的数据为：",'\n',S.head()) ''' #离差标准化函数 def MinMaxScale(data): data=(data-data.min())/(data.max()-data.min()) return data M=MinMaxScale(model) print("离差标准化后的数据为：",'\n',S.head()) #小数定标差标准化函数 def DecimalScaler(data): data=data/10**np.ceil(np.log10(data.abs().max())) return data D=DecimalScaler(model) print("小数定标差标准化的数据为：",'\n',D.head())'''

在这里插入图片描述

三种标准化各有其优势，离差标准化方法简单，便于理解，标准化后的数据限定在[0,1]区间内。标准差标准化受数据分布的影响较小。小数定标标准化方法的适用范围广，并且受数据分布的影响较小，相比较于前两种方法，该方法适用程度适中。

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

【Python】实训5：使用pandas进行数据预处理( lagrange插值、merge合并、标准化)

【Python】实训5：使用pandas进行数据预处理( lagrange插值、merge合并、标准化)

今日新闻

点击排行

推荐新闻

图片新闻

专题文章