pandas学习-函数drop_duplicates的用法

时间：2023-09-20 18:46:26浏览次数：38

标签：删除 duplicates drop DataFrame 重复 pandas

pandas函数drop_duplicates用于去除DataFrame中的重复行。

语法：

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数说明：

subset：指定要考虑的列名或列名的列表。默认值为None，表示考虑所有列。
keep：指定保留哪个重复的行。可选值为'first'（保留第一个出现的重复行）、'last'（保留最后一个出现的重复行）或False（删除所有重复行）。默认值为'first'。
inplace：指定是否在原始DataFrame上进行修改。如果为True，则在原始DataFrame上删除重复行并返回None。如果为False（默认值），则返回一个新的DataFrame，其中删除了重复行。

示例：

import pandas as pd

data = {'name': ['John', 'Mary', 'John', 'Peter'],
        'city': ['London', 'Paris', 'London', 'Berlin']}
df = pd.DataFrame(data)

# 删除所有重复行
df.drop_duplicates(inplace=True)
print(df)

输出：

   name    city
0  John  London
1  Mary   Paris
3  Peter  Berlin

在上述示例中，使用drop_duplicates函数删除了DataFrame中的重复行，并返回了新的DataFrame。

标签：删除,duplicates,drop,DataFrame,重复,pandas
From： https://www.cnblogs.com/abc19830814/p/17718055.html

mysql TRUNCATE DELETE DROP
https://www.cnblogs.com/cy0628/p/15019630.html truncate与drop,delete的对比（重要）12345678上面说过truncate与delete，drop很相似，其实这三者还是与很大的不同的，下面简单对比下三者的异同。 truncate与drop是DDL语句，执行后无法回滚；delete是DML......
【Pandas】groupby连用的count()和size()的区别
groupby连用的count()和size()的区别count()计算的是value（数值）；size()计算的是size（个数）我们有以下表：size()age=df.groupby(by='Nation').size().reset_index()age可以发现，size()计数的是记录的条数，即每个nation对应有多少条count()count=df_try.groupby(by=......
Dropout程序
1#coding:utf-82importnumpyasnp34#dropout函数的实现5defdropout(x,level):6iflevel<0.orlevel>=1:#level是概率值，必须在0~1之间7raiseValueError('Dropoutlevelmustbeininterval[0,1[.')8retain_prob=1......
时间序列的重采样和pandas的resample方法介绍
重采样是时间序列分析中处理时序数据的一项基本技术。它是关于将时间序列数据从一个频率转换到另一个频率，它可以更改数据的时间间隔，通过上采样增加粒度，或通过下采样减少粒度。在本文中，我们将深入研究Pandas中重新采样的关键问题。为什么重采样很重要?时间序列数据到达时通常带有......
pandas使用 - 取数据
涉及的几个类pandas.core.frame.DataFrame：表示二维数据，比如：表格数据pandas.core.series.Series：表示一维数据，比如：一行数据，或一列数据取行用法DataFrame[row_slice]DataFrame.loc[rowName|rowName_slice|rowName_list]DataFrame.iloc[row|row_slice|row_list]取一......
用pandas实现表格的内连接、外连接、左连接和右连接
基于pd.merge函数，实现两个表格的内连接、外连接、左连接和右连接，代码示例如下importpandasaspddf1=pd.DataFrame({'year':[2020,2020,2021,2021,2022],'company':['apple','google','apple','google','appl......
Pandas一键爬取解析代理IP与代理IP池的维护
一、前言代理IP是现在爬虫获取数据的必备工具之一，它可以帮助我们规避一些反爬措施，比如封IP、验证码等。同时，我们也可以利用代理IP来实现一些多线程或分布式爬虫的功能，提高爬虫效率。但是，代理IP的获取和验证是一项比较费时费力的工作，所以我们需要一些工具来帮助我们自动化获取和验证......
工作这么多年，还分不清truncate、delete和drop？
前言在使用SQL（StructuredQueryLanguage）进行数据库操作时，我们经常会遇到需要删除数据或表的情况。而在这些场景中，我们常常使用truncate、delete和drop这三个关键词。尽管它们都有删除数据的作用，但是它们之间还是存在一些差别。在本篇文章中，我们将深入探讨truncate、delete和drop......
（数据科学学习手札154）geopandas 0.14版本新特性一览
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师，就在前两天，Python生态中的GIS运算神器geopandas发布了其0.14.0新版本，在这次新版本更新中，不仅是新增了许多矢量计算API，还开始为日后正式发布1.0版本做准备，对......
pandas实现读取excel并删除第一条内容再保存
想要实现的是，获取excel的第一条信息之后，把原excel的信息保存。再读取，再保存，这样，每次读取到的信息都是新的信息。工作需要大量的输入证件号查询信息，这样就避免了手动输入。importnumpyasnpimportpandasaspdimportopenpyxlimporttimelianxi=pd.read_excel('./练习.xl......

pandas学习-函数drop_duplicates的用法

相关文章

赞助商

阅读排行