首页 > 其他分享 >pandas学习-函数drop_duplicates的用法

pandas学习-函数drop_duplicates的用法

时间:2023-09-20 18:46:26浏览次数:35  
标签:删除 duplicates drop DataFrame 重复 pandas

pandas函数drop_duplicates用于去除DataFrame中的重复行。

语法:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数说明:

  • subset:指定要考虑的列名或列名的列表。默认值为None,表示考虑所有列。
  • keep:指定保留哪个重复的行。可选值为'first'(保留第一个出现的重复行)、'last'(保留最后一个出现的重复行)或False(删除所有重复行)。默认值为'first'。
  • inplace:指定是否在原始DataFrame上进行修改。如果为True,则在原始DataFrame上删除重复行并返回None。如果为False(默认值),则返回一个新的DataFrame,其中删除了重复行。

示例:

import pandas as pd

data = {'name': ['John', 'Mary', 'John', 'Peter'],
        'city': ['London', 'Paris', 'London', 'Berlin']}
df = pd.DataFrame(data)

# 删除所有重复行
df.drop_duplicates(inplace=True)
print(df)

输出:

   name    city
0  John  London
1  Mary   Paris
3  Peter  Berlin

在上述示例中,使用drop_duplicates函数删除了DataFrame中的重复行,并返回了新的DataFrame。

标签:删除,duplicates,drop,DataFrame,重复,pandas
From: https://www.cnblogs.com/abc19830814/p/17718055.html

相关文章

  • mysql TRUNCATE DELETE DROP
    https://www.cnblogs.com/cy0628/p/15019630.html     truncate与drop,delete的对比(重要)12345678上面说过truncate与delete,drop很相似,其实这三者还是与很大的不同的,下面简单对比下三者的异同。 truncate与drop是DDL语句,执行后无法回滚;delete是DML......
  • 【Pandas】groupby连用的count()和size()的区别
    groupby连用的count()和size()的区别count()计算的是value(数值);size()计算的是size(个数)我们有以下表:size()age=df.groupby(by='Nation').size().reset_index()age可以发现,size()计数的是记录的条数,即每个nation对应有多少条count()count=df_try.groupby(by=......
  • Dropout程序
    1#coding:utf-82importnumpyasnp34#dropout函数的实现5defdropout(x,level):6iflevel<0.orlevel>=1:#level是概率值,必须在0~1之间7raiseValueError('Dropoutlevelmustbeininterval[0,1[.')8retain_prob=1......
  • 时间序列的重采样和pandas的resample方法介绍
    重采样是时间序列分析中处理时序数据的一项基本技术。它是关于将时间序列数据从一个频率转换到另一个频率,它可以更改数据的时间间隔,通过上采样增加粒度,或通过下采样减少粒度。在本文中,我们将深入研究Pandas中重新采样的关键问题。为什么重采样很重要?时间序列数据到达时通常带有......
  • pandas使用 - 取数据
    涉及的几个类pandas.core.frame.DataFrame:表示二维数据,比如:表格数据pandas.core.series.Series:表示一维数据,比如:一行数据,或一列数据 取行用法DataFrame[row_slice]DataFrame.loc[rowName|rowName_slice|rowName_list]DataFrame.iloc[row|row_slice|row_list]取一......
  • 用pandas实现表格的内连接、外连接、左连接和右连接
    基于pd.merge函数,实现两个表格的内连接、外连接、左连接和右连接,代码示例如下importpandasaspddf1=pd.DataFrame({'year':[2020,2020,2021,2021,2022],'company':['apple','google','apple','google','appl......
  • Pandas一键爬取解析代理IP与代理IP池的维护
    一、前言代理IP是现在爬虫获取数据的必备工具之一,它可以帮助我们规避一些反爬措施,比如封IP、验证码等。同时,我们也可以利用代理IP来实现一些多线程或分布式爬虫的功能,提高爬虫效率。但是,代理IP的获取和验证是一项比较费时费力的工作,所以我们需要一些工具来帮助我们自动化获取和验证......
  • 工作这么多年,还分不清truncate、delete和drop?
    前言在使用SQL(StructuredQueryLanguage)进行数据库操作时,我们经常会遇到需要删除数据或表的情况。而在这些场景中,我们常常使用truncate、delete和drop这三个关键词。尽管它们都有删除数据的作用,但是它们之间还是存在一些差别。在本篇文章中,我们将深入探讨truncate、delete和drop......
  • (数据科学学习手札154)geopandas 0.14版本新特性一览
    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,就在前两天,Python生态中的GIS运算神器geopandas发布了其0.14.0新版本,在这次新版本更新中,不仅是新增了许多矢量计算API,还开始为日后正式发布1.0版本做准备,对......
  • pandas实现读取excel并删除第一条内容再保存
    想要实现的是,获取excel的第一条信息之后,把原excel的信息保存。再读取,再保存,这样,每次读取到的信息都是新的信息。工作需要大量的输入证件号查询信息,这样就避免了手动输入。importnumpyasnpimportpandasaspdimportopenpyxlimporttimelianxi=pd.read_excel('./练习.xl......