数据清洗处理实战:pandas查找与删除重复行(duplicate()与drop

您所在的位置:网站首页 将二维数组df中重复行直接删除的命令 数据清洗处理实战:pandas查找与删除重复行(duplicate()与drop

数据清洗处理实战:pandas查找与删除重复行(duplicate()与drop

2024-07-13 03:56:42| 来源: 网络整理| 查看: 265

一、实战应用背景

最近在进行数据识别方面的开发时,多人识别的数据汇总后,发现有不少是重行的,这时为理清责任,就需要将重复数据进行标记,并删除重复数据。针对这一问题,pandas上有高效的处理方法,就是用duplicate()方法进行标记,用drop_duplicate方法进行去重。

二、duplicate()方法与drop_duplicate方法参数及解释

两个方法的参数见下表

两种方法参数对照表 duplicate()方法drop_duplicate()参数含义subsetsubset如果不按照全部内容查重,那么需要指定按照哪些列进行查重。需要注意的是,最好找一个唯一值设置,如单号、身份证号等,比如按照姓名进行查重,就会出现重名的情况。本例用单号:subset=['委托序号'],如果用姓名,可以增加其他列进行辅助,解决重名的问题,如可以按照姓名和出生日期两列查重,subset=['name','birthday'],同理还可以再添加列,这样就可以基本保证去重效果了。keepkeep决定保留重复行中的哪个:first:保留重复值的第一个;last:保留重复值的最后一个;False:删除重复值的所有行inplace布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。

ignore_index

布尔值,默认False:不改变DataFrame的原有索引标签,否则将修改为0,1,…n-1

三、解决案例 (一)查重 df.duplicated(subset='委托序号',keep='first')

返回 的这些布尔值可以用一个pd.Series来接收,可以和原来的数据框合并,以进行对比。

df_duplicated = df.duplicated(subset='委托序号',keep='first') df['duplicated'] = df_duplicated # 或者用下面的语句,但没有上面语句简洁实用 # df = pd.concat([df,df_duplicated],axis=1) df

(二)去除重复值 df.drop_duplicates('委托序号', keep='first', inplace=True, ignore_index=True)



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭