Pandas 如何获取DataFrame列值的平均数 您所在的位置:网站首页 word计算列值 Pandas 如何获取DataFrame列值的平均数

Pandas 如何获取DataFrame列值的平均数

2024-07-16 07:54| 来源: 网络整理| 查看: 265

Pandas 如何获取DataFrame列值的平均数

在本文中,我们将介绍如何使用Pandas获取DataFrame列的平均值。Pandas是一个Python数据分析库,常用于数据清洗,数据预处理,数据可视化和机器学习等领域。它提供了丰富的数据结构和函数,方便用户进行数据处理和分析。

阅读更多:Pandas 教程

创建DataFrame

在使用Pandas获取DataFrame列值的平均数之前,我们需要先创建一个例子DataFrame。我们可以使用Pandas提供的DataFrame函数来创建DataFrame。下面是一个例子:

import pandas as pd # 创建DataFrame df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 'Age': [25, 30, 32, 28], 'Salary': [5000, 6000, 7000, 8000]}) print(df)

上述代码中,我们使用一个字典来创建DataFrame对象,其中字典的键表示DataFrame的列名,字典的值表示DataFrame的列值。

输出结果为:

Name Age Salary 0 Tom 25 5000 1 Sam 30 6000 2 Steve 32 7000 3 Rob 28 8000 计算DataFrame列值的平均数

在Pandas中,我们可以使用mean()函数来计算DataFrame列值的平均数。下面是一个例子:

import pandas as pd # 创建DataFrame df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 'Age': [25, 30, 32, 28], 'Salary': [5000, 6000, 7000, 8000]}) # 计算Salary列的平均数 mean_salary = df['Salary'].mean() print('Salary列的平均数为:', mean_salary)

输出结果为:

Salary列的平均数为: 6500.0

上述代码中,我们调用mean()函数来计算Salary列的平均数,并使用print()函数来输出结果。

需要注意的是,我们可以使用任何一列来计算平均数,如Age列的平均数。只需要将df[‘Salary’]替换为df[‘Age’]即可。

计算DataFrame多列的平均数

如果我们需要计算DataFrame中多列的平均数,可以使用mean()函数的axis参数。如果axis=0,表示对列进行计算,得到每列的平均数;如果axis=1,表示对行进行计算,得到每行的平均数。下面是一个例子:

import pandas as pd # 创建DataFrame df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 'Age': [25, 30, 32, 28], 'Salary': [5000, 6000, 7000, 8000]}) # 计算Age和Salary列的平均数 mean_age_salary = df[['Age', 'Salary']].mean(axis=0) print('Age和Salary列的平均数为:\n', mean_age_salary)

输出结果为:

Age和Salary列的平均数为: Age 28.750 Salary 6500.000 dtype: float64

上述代码中,我们使用中括号[]来选择Age和Salary列,并使用mean()函数来计算平均数,axis参数的值为0。

去除空值后计算DataFrame列值的平均数

在实际数据处理中,我们常常会遇到缺失值。缺失值是指那些不完整或者不存在的数据。如果我们不做处理,会影响到数据的分析和模型的训练。在Pandas中,我们可以使用dropna()函数去除缺失值,然后再计算平均数。下面是一个例子:

import pandas as pd # 创建DataFrame df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 'Age': [25, 30, 32, None], 'Salary': [5000, 6000, None, 8000]}) # 去除空值 df_dropna = df.dropna() # 计算Age列的平均数 mean_age = df_dropna['Age'].mean() print('去除缺失值后的Age列的平均数为:', mean_age) # 计算Salary列的平均数 mean_salary = df_dropna['Salary'].mean() print('去除缺失值后的Salary列的平均数为:', mean_salary)

输出结果为:

去除缺失值后的Age列的平均数为: 29.0 去除缺失值后的Salary列的平均数为: 5500.0

上述代码中,我们使用dropna()函数去除缺失值,得到新的DataFrame对象df_dropna。然后,我们计算Age列和Salary列的平均数,并使用print()函数输出结果。

总结

本文介绍了如何使用Pandas计算DataFrame列值的平均数。我们可以使用mean()函数来计算平均数,并使用axis参数来计算多列的平均数。如果数据中存在缺失值,我们可以使用dropna()函数去除缺失值。Pandas提供了丰富的函数和工具,方便用户进行数据分析和处理。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有