python利用pandas实现excel数据分组汇总 您所在的位置:网站首页 excel按人名打印 python利用pandas实现excel数据分组汇总

python利用pandas实现excel数据分组汇总

2023-10-13 01:27| 来源: 网络整理| 查看: 265

之前,在知乎上看见网友提出了如下问题:假设excel表中有如下数据,需要根据编码分组并并求出数量之和。但是感觉用excel自身的功能感觉操作并不简单,于是决定使用pandas解决,并尽可能多的了解一下pandas中的groupby 函数 在这里插入图片描述 1、groupby函数两行代码解决

# 第一个参数:哪个工作薄,第二个参数,哪个工作表 >>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet1') >>> df 编码 组别 数量 0 K123 A 12 1 K123 A 14 2 K123 A 34 3 K124 A 32 4 K123 B 42 5 K123 B 12 6 K123 B 12 7 K124 B 43 8 K123 B 23 # 按照编码分组,并对分组结果进行求和。 >>> df.groupby(['编码']).sum() 编码 数量 K123 149 K124 75 # 先按照编码分组,再按照组别分组 >>> df.groupby(['编码', '组别']).sum() 编码 组别 数量 K123 A 60 B 89 K124 A 32 B 43 >>> df.groupby(['组别', '编码']).sum() 组别 编码 数量 A K123 60 K124 32 B K123 89 K124 43

2、其实groupby()中的[]接受的不仅是列名,还可以接受函数,函数会对index(在读取excel时,可以将某一列指定为index列)列中的每一个记录应用函数,并按照函数的返回结果进行分类。

在这里插入图片描述 (1)假设有如下需求,编码这一列中有以K开头的,也有以J开头的,那么如何按照‘编码‘’这一列中的K,J组分类求和呢?

# 读取某个excel表数据,需要指定index列,目前制定了‘编码’列 >>> df = pd.read_excel(r'C:\Users\liuchao\Desktop\Students.xlsx', 'Sheet2', index_col='编码') >>> df 编码 组别 数量 K123 A 12 K123 A 14 K123 A 34 K124 A 32 K123 B 42 K123 B 12 K123 B 12 K124 B 43 K123 B 23 J123 B 23 J123 B 23 J124 B 23 J124 B 23 J124 B 23 # lambda x : x[0]表示对index列中的每一行记录取第一个字符,并按照结果分类,当然也可以使用def定义函数,实现比较复杂的功能 >>> df.groupby([lambda x : x[0]]).sum() 数量 J 115 K 224 # 定义一个函数,仅返回每一列的第一个字符 >>> def get_first(x): return x[0] # 应用这个函数,得到的是相同结果 >>> df.groupby([lambda x : get_first(x)]).sum() 数量 J 115 K 224 # 当然,在进行以上分组后,仍然可以按照列名分组,请看如下,先按照函数分组,再按照‘组别’分组 >>> df.groupby([lambda x : get_first(x), '组别']).sum() 组别 数量 J B 115 K A 92 B 132

哈哈,使用pandas的groupby函数分组汇总就是这么简单强大。欢迎关注我的公众号:python小工具。关注就有福利哦 在这里插入图片描述



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有