Pandas 重复值统计

2024-06-29 17:02| 来源: 网络整理| 查看: 265

Pandas 重复值统计

在本文中，我们将介绍如何使用Pandas在DataFrame中统计重复值。

阅读更多：Pandas 教程

检查重复值

我们可以使用duplicated()函数来检查DataFrame中的重复值。该函数将返回一个布尔型数组，表示DataFrame中每个元素是否重复出现。例如，我们有一个读取自CSV的DataFrame：

import pandas as pd df = pd.read_csv('data.csv') print(df)

输出：

Name Age 0 Bob 23 1 Tom 28 2 Jack 23 3 Bob 23 4 Bob 28

我们可以使用duplicated()函数来检查每个元素是否重复：

print(df.duplicated())

输出：

0 False 1 False 2 False 3 True 4 False dtype: bool

在这个例子中，第4个元素是一个重复值。我们可以在DataFrame中使用drop_duplicates()函数来删除重复值：

df = df.drop_duplicates() print(df)

输出：

Name Age 0 Bob 23 1 Tom 28 2 Jack 23 4 Bob 28

现在，我们的DataFrame中只剩下4个唯一的值。

统计重复值

我们可以使用value_counts()函数来统计重复值的数量。该函数将返回一个Pandas Series对象，其中包含每个唯一值出现的次数。例如，我们可以对上述DataFrame中的Name列进行统计：

print(df['Name'].value_counts())

输出：

Bob 2 Jack 1 Tom 1 Name: Name, dtype: int64

在这个例子中，Bob出现了两次，Jack和Tom各出现了一次。

统计重复值的比例

我们可以使用value_counts()函数和normalize=True参数来计算重复值出现的比例。例如，我们可以对上述DataFrame中的Age列进行统计：

print(df['Age'].value_counts(normalize=True))

输出：

23 0.5 28 0.5 Name: Age, dtype: float64

在这个例子中，23和28等比例出现。

总结

本文介绍了在Pandas中统计DataFrame中重复值的方法，包括检查重复值、删除重复值、统计重复值和统计重复值的比例。这些功能可以帮助我们更好地分析和理解数据。

【本文地址】

公司简介

联系我们