【Python 您所在的位置:网站首页 表格数据怎么去重 【Python

【Python

2023-07-24 04:54| 来源: 网络整理| 查看: 265

写在前面的Tips:

使用函数drop_duplicates其中参数subset可以指定按照某字段进行去重。效果如下图 在这里插入图片描述参数inpalce默认为False,若为True则直接在原数据上做修改(不推荐,风险较大)参数keep, 若='first’则保留第一次出现的值,若='last’保留最后一次出现的值,若='false’表示一条都不保留

下面是代码演示

import pandas as pd import openpyxl datadir = r"C:\Users\Haley\Desktop\test_duplicates_data.xlsx" data = pd.read_excel(datadir, sheet_name='OriginalData') data_new = data.drop_duplicates(subset=['name'], keep='first', inplace=False) #inplace:默认为False. True:直接在原数据上删除重复项 False: 删除重复项后返回副本 print(data_new) wb = openpyxl.load_workbook(datadir) #如果有多个模块可以读写excel文件,这里要指定engine,否则可能会报错 writer = pd.ExcelWriter(datadir,engine='openpyxl') #没有下面这个语句的话excel表将完全被覆盖 writer.book = wb data_new.to_excel(writer, index=True, sheet_name='Output') writer.save()

源数据长这样: 在这里插入图片描述 代码中我按照name列去重,并保留了第一次出现的值,得到数据如下(我打印出了数据的行数,可以看到哪些是被保留下来的): 在这里插入图片描述 注:如果要往已存在的excel中的不同sheet写入数据,需要导入openpyxl包,要使用如下代码

wb = openpyxl.load_workbook(datadir) #如果有多个模块可以读写excel文件,这里要指定engine,否则可能会报错 writer = pd.ExcelWriter(datadir,engine='openpyxl') #没有下面这个语句的话excel表将完全被覆盖 writer.book = wb


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有