python利用pandas实现excel数据分组汇总

2023-10-13 01:27| 来源: 网络整理| 查看: 265

之前，在知乎上看见网友提出了如下问题：假设excel表中有如下数据，需要根据编码分组并并求出数量之和。但是感觉用excel自身的功能感觉操作并不简单，于是决定使用pandas解决，并尽可能多的了解一下pandas中的groupby 函数在这里插入图片描述 1、groupby函数两行代码解决

# 第一个参数：哪个工作薄，第二个参数，哪个工作表 >>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1') >>> df 编码组别数量 0 K123 A 12 1 K123 A 14 2 K123 A 34 3 K124 A 32 4 K123 B 42 5 K123 B 12 6 K123 B 12 7 K124 B 43 8 K123 B 23 # 按照编码分组，并对分组结果进行求和。 >>> df.groupby(['编码']).sum() 编码数量 K123 149 K124 75 # 先按照编码分组，再按照组别分组 >>> df.groupby(['编码', '组别']).sum() 编码组别数量 K123 A 60 B 89 K124 A 32 B 43 >>> df.groupby(['组别', '编码']).sum() 组别编码数量 A K123 60 K124 32 B K123 89 K124 43

2、其实groupby()中的[]接受的不仅是列名，还可以接受函数，函数会对index（在读取excel时，可以将某一列指定为index列）列中的每一个记录应用函数，并按照函数的返回结果进行分类。

在这里插入图片描述 (1)假设有如下需求，编码这一列中有以K开头的，也有以J开头的，那么如何按照‘编码‘’这一列中的K,J组分类求和呢？

# 读取某个excel表数据，需要指定index列，目前制定了‘编码’列 >>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index_col='编码') >>> df 编码组别数量 K123 A 12 K123 A 14 K123 A 34 K124 A 32 K123 B 42 K123 B 12 K123 B 12 K124 B 43 K123 B 23 J123 B 23 J123 B 23 J124 B 23 J124 B 23 J124 B 23 # lambda x : x[0]表示对index列中的每一行记录取第一个字符，并按照结果分类，当然也可以使用def定义函数，实现比较复杂的功能 >>> df.groupby([lambda x : x[0]]).sum() 数量 J 115 K 224 # 定义一个函数，仅返回每一列的第一个字符 >>> def get_first(x): return x[0] # 应用这个函数，得到的是相同结果 >>> df.groupby([lambda x : get_first(x)]).sum() 数量 J 115 K 224 # 当然，在进行以上分组后，仍然可以按照列名分组，请看如下，先按照函数分组，再按照‘组别’分组 >>> df.groupby([lambda x : get_first(x), '组别']).sum() 组别数量 J B 115 K A 92 B 132

哈哈，使用pandas的groupby函数分组汇总就是这么简单强大。欢迎关注我的公众号：python小工具。关注就有福利哦在这里插入图片描述

【本文地址】

公司简介

联系我们