【Pandas分组聚合】进阶：使用自定义函数方法 transform() 、apply()

2023-08-06 06:24| 来源: 网络整理| 查看: 265

Pandas使用自定义方法分组聚合创建一个dataframe结构transform方法apply方法补充str

创建一个dataframe结构 import pandas as pd df = pd.DataFrame( data={ 'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'], 'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80], 'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2], 'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'], 'height': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0] }, index=['stu_' + str(i) for i in np.arange(1, 13, 1)] ) print('df:\n', df) def func_add_one(x): return x + 1 transform方法 # 调用自定义函数 ret = df.loc[:, 'score'].transform(func_add_one) print('ret1:\n',ret) # 调用numpy指标求均值 ret = df.groupby(by=['cls'])['score'].transform(np.mean) print('ret2:\n', ret) # 求多列的均值 ret = df.groupby(by=['cls'])[['score','height']].transform(np.mean) print('ret3:\n', ret)

在这里插入图片描述

由结果可以发现，transform调用统计指标会将统计结果交给第一项，这样可以保证统计结果的行数与原数组相同，使得之后方便将其拼接到原数组中。

如果想将结果进行聚合，可以调用apply方法：

apply方法 # 调用自定义函数 ret = df.loc[:, 'score'].apply(func_add_one) print('ret1:\n',ret) # 调用numpy指标 ret = df.groupby(by=['cls'])[['score','height']].apply(np.mean) print('ret2:\n', ret)

在这里插入图片描述