matplotlib柱状图轴标签自定义排序

2023-07-11 00:06| 来源: 网络整理| 查看: 265

前言：大家好，这里是Seon塞翁。昨天一位同学提问 “matplotlib 画柱状图时，横坐标是从表格中指定列获取的，如何设置横坐标的顺序呢？” 原始数据结构如下图所示，需要对学历分组求平均工资后画柱状图，顺序应为按学历由低到高，即 ['大专', '本科', '硕士', '博士'] 。在这里插入图片描述通过以下代码直接画图的结果如下图所示，未满足需求的顺序，下面我们来看看应该如何实现。

grp = df.groupby('学历要求')['平均工资'].mean().reset_index() x = grp['学历要求'] y = grp['平均工资'] plt.bar(x, y) plt.show()

在这里插入图片描述

一、在绘图时修改默认顺序

直接上大佬给的解决方案。

grp = df.groupby('学历要求')['平均工资'].mean().reset_index() plt.bar([4, 1, 2, 3], grp['平均工资'], tick_label=grp['学历要求'])

通过默认顺序，我们可以知道原来 1、 2、 3、 4 位分别是博士、大专、本科、硕士，那么我们需要让博士排在第 4 位，后三者顺位前移，所以在绘图函数的第一个参数中传入新的顺序列表 [4, 1, 2, 3] 。第二个参数转入原始 y 轴值，最后通过 tick_label 参数指定 x 轴标签，随机便得到了需求的柱状图。在这里插入图片描述

二、在传入绘图函数前手动排序

这是另一位大佬提示的解法，十分直观。先给定自定义顺序的 x 轴标签列，再按这个顺序去排列 y 轴值。

grp = df.groupby('学历要求')['平均工资'].mean() x = ['大专', '本科', '硕士', '博士'] y = [grp[label] for label in x] plt.bar(x, y)

由于忘记了 matplotlib 和 pandas 之间有着很好的兼容性，笔者一开始打算先得到需求顺序的 x = ['大专', '本科', '硕士', '博士'] 和 y = [ 具体的值 ] 再通过 plt.bar(x, y) 制图，因此在数据整理上跑偏了，比如：

y = [grp.at[label] for label in x]

下面分享一下笔者走的歪路。

三、自定义文本排序

计算机系统中存在一些默认顺序，比如数字顺序 0123456，字母顺序 abcdefg，还有 ASCII 码表顺序等，但对于中文习惯的顺序，比如学历，可能就需要自己制定了。那让我们专注排序本身，先来看看分组后的数据：在这里插入图片描述 x = grp['学历要求'] 和 y = grp['平均工资'] 分别得到两个 Series 对象。那么应该如何将它们绑定在一起，根据 x 按照指定的 order_x = ['大专', '本科', '硕士', '博士'] 排序呢？

1、打包排序

我们可以通过 zip() 函数将其打包使之成为一个整体，然后通过列表生成式，得到修改顺序后的 y 轴值列表 order_y ，将 order_x 和 order_y 传入制图即可。

order_y = [t[1] for i in order_x for t in list(zip(x, y)) if i == t[0]]

其中 list(zip(x, y)) 的打印结果为： [('博士', 20.0), ('大专', 5.25), ('本科', 11.0), ('硕士', 15.33)] ；列表生成式重新取出的元祖列表为：[('大专', 5.25), ('本科', 11.0), ('硕士', 15.33), ('博士', 20.0)] ； order_y 为： [5.25, 11.0, 15.33, 20.0] 。

2、利用 pandas 重设索引排序

整体代码：

grp = df.groupby('学历要求')['平均工资'].mean().reset_index() df_map = pd.DataFrame({'学历要求': ['大专', '本科', '硕士', '博士']}).reset_index().set_index('学历要求') grp['order'] = grp['学历要求'].map(df_map['index']) grp.sort_values('order', inplace=True) x = grp['学历要求'] y = grp['平均工资']

首先制作了一个 df_map ，相当于是排序对照表，将索引作为新的顺序列。在这里插入图片描述将上面的顺序列，按照原 grp 的学历要求列，映射添加到新的 order 列。再按照 order 列排序即可。

3、利用 CategoricalDtype 自定义顺序

CategoricalDtype 是 pandas 中一种用于处理【类别】的数据类型，可以指定类别是否有序。我们通过这个方法创建了一个有序 “类别类”，并修改学历要求列的数据类型为此类，此时各类学历文本便具有了其默认顺序，之后便可以对其直接排序。

from pandas.api.types import CategoricalDtype grp = df.groupby('学历要求')['平均工资'].mean().reset_index() cat_order = CategoricalDtype(['大专', '本科', '硕士', '博士'], ordered=True) grp['学历要求'] = grp['学历要求'].astype(cat_order) grp.sort_values('学历要求', inplace=True) x = grp['学历要求'] y = grp['平均工资']

这种方法就如同在 EXCEL 中使用自定义排序一般，对于中文序列非常友好。在这里插入图片描述

小结

通过本次试验，我们了解了几种自定义文本排序的方法，同时要注意的是，要找准解决问题的切入点。比如夏天到了，我想吃好吃的西瓜，我应该要知道怎么挑瓜，或让买过西瓜的朋友推荐，而不是研究瓜苗培育（这什么鬼比喻）。当然，学一学种植也是可以涨姿势的（总之是因为跑偏了吧）。

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章