【数据处理】Pandas读取CSV文件示例及常用方法(入门) 您所在的位置:网站首页 对某人来说很困难英语怎么说 【数据处理】Pandas读取CSV文件示例及常用方法(入门)

【数据处理】Pandas读取CSV文件示例及常用方法(入门)

2024-04-03 15:58| 来源: 网络整理| 查看: 265

文章目录 1. 导入常用包2. 文件读取3. 查看有哪些列4. 查看前几行数据5. 查看数据信息6. 查看获取指定列的数据7. 判断某列是否有None值8. 查看某列的None值数量9. 获取指定行的数据10. 填补None值11.用原数据组合添加一列新数据12. 删除指定某列的数据13. 获取指定行与列14. 将某一列设置为新的Index索引值15. 查看某列数据的所有值16. 类型转换Numpy17. agg 聚合操作18.指定列的数据绘图19. 只要某列的数据20.统计某列中各个数据的次数21.两个数据上下拼接22.随机获取若干行数据23.查看最后几行数据

1. 导入常用包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import datetime %matplotlib inline 2. 文件读取 data = pd.read_csv('./xxxxxx_2010.1.1-2014.12.31.csv')

在这里插入图片描述

3. 查看有哪些列 data.columns

在这里插入图片描述

4. 查看前几行数据 data.head() # 默认前5行

在这里插入图片描述 查看读取前10行数据

data.head(10) 5. 查看数据信息 data.info()

在这里插入图片描述

6. 查看获取指定列的数据 data['pm2.5'] # 查看pm2.5该列的数据

在这里插入图片描述

7. 判断某列是否有None值 data['pm2.5'].isna() # 判断None值 返回布尔类型数据

在这里插入图片描述

8. 查看某列的None值数量 data['pm2.5'].isna().sum() # 查看None的数量

2067

9. 获取指定行的数据 data.iloc[24:] # 从24行到最后一行 10. 填补None值

向前填充

data.iloc[24:].fillna(method = 'ffill') # 前向填充

指定列的插值填充

data['pm2.5'].interpolate() # 插值

使用某数据填充指定列的空值

# 使用0填补空值 data['pm2.5'].fillna(0, inplace = True) # inplace = True:直接修改源数据DataFrame ,默认返回修改后的数据(原数据不变) 11.用原数据组合添加一列新数据

示例:

data['tm'] = data.apply(lambda x : datetime.datetime(year = x['year'], month = x['month'], day = x['day'], hour = x['hour']),axis=1)

在这里插入图片描述

12. 删除指定某列的数据 data.drop(columns=['year','month','day','hour','No'],inplace = True) 13. 获取指定行与列

类似切片

data = data.iloc[:,:8] 14. 将某一列设置为新的Index索引值 data = data.set_index('tm')

在这里插入图片描述

15. 查看某列数据的所有值 data.cbwd.unique()

array([‘SE’, ‘cv’, ‘NW’, ‘NE’], dtype=object)

16. 类型转换Numpy data.iloc[:,1:].to_numpy() 17. agg 聚合操作

类似数据库查询中的groupby查询

先添加新的一列按月将数据划分

data['timeForMonth'] = data.apply(lambda x: str(x['year'])+"-"+'{:02}'.format(int(x['month'])), axis=1)

聚合,对指定的列按月划分求平均值等

dataForMonth = data.groupby('timeForMonth').agg({'pm2.5':'mean','DEWP':'mean','TEMP':'mean','Iws':'mean','Is':'sum','Ir':'sum'}) min 最小值 max 最大值sum 求和mean 平均值median 中位数std 标准差var 方差count 计数 18.指定列的数据绘图 data['pm2.5'].plot()

在这里插入图片描述

19. 只要某列的数据

生成新的data

data = data[['pm2.5', 'tm']] 20.统计某列中各个数据的次数 data.列名.value_counts() data.airline_sentiment.value_counts()

结果示例: negative 9178 neutral 3099 positive 2363 Name: airline_sentiment, dtype: int64

21.两个数据上下拼接 data = pd.concat([data_a, data_b])

假如data_a的维度为4行6列,data_b为6行6列(列数相同),则data为10行6列

22.随机获取若干行数据 data2 = data.sample(2) # 随机取2条数据 data = data.sample(len(data)) # 乱序用法 23.查看最后几行数据 data.tail() # 默认5行 data.tail(10) # 倒数10行

如果觉得



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有