Python个人学习笔记 Pandas库

2023-05-30 22:30| 来源: 网络整理| 查看: 265

数据合并

⑴ concat()

concat( objs, axis)

参数objs：需要合并的数据的列表。

参数axis：0为按行合并；1为按列合并。

批量处理

ExcelFile 是 Pandas 提供的一个类，用于读取和解析 Excel 文件。

sheet_names属性返回一个列表，包含所读取的文件中所有的工作簿名。

⑵ _append()

按行合并时，且只有2个数据，可以用 _append() 合并。

▲按行合并后行索引会与合并前一样，可以用 reset_index() 来重置索引。参数drop=True表示丢弃原索引。

数据连接

merge(left,right,how,on)

若需要合并的2个表每行对不上，但有公共列，可以用公共列来连接2个表。

left：需要连接的左表。

right：需要连接的右表。

how:

left：把右表连接到左表上。若公共列中左表有右表没有的值，则显示空值。

right：把左表连接到右表上。显示空值。

inner：只连接2个表都存在数据的行。默认为inner。

outer：连接所有数据。显示空值。

on：公共列。

数据分组

groupby()

参数为用来分组的列名。

将数据按照指定的列或用列表指定多个列进行分组，然后对每个组进行聚合、转换或其他操作。常见的聚合函数有 sum() count() 等，还可以配合 apply() 调用自定义函数。

unique()

返回一个Numpy数组，包含指定列中的不同的元素。

数据透视表

pivot_table()

可以将分组转化为Excel的数据透视表。

参数：

values: 指定要聚合的数值列或列列表。即用于计数的项。 index: 指定用作行索引的列或列列表。 columns: 指定用作列索引的列或列列表。 aggfunc: 指定对聚合值的计算方法，默认为均值。可以使用内置的聚合函数，如 sum、count、min、max 等，也可以使用自定义函数。 fill_value: 指定替代缺失值的值。 margins: 指定是否显示汇总行和列，默认为 False。

margins_name: 指定汇总行和列的名称。

dropna: 指定是否删除包含缺失值的行或列，默认为 True。

【本文地址】

公司简介

联系我们