首页 > 其他分享 >pandas.DataFrame.duplicated—返回表示重复行的布尔集合

pandas.DataFrame.duplicated—返回表示重复行的布尔集合

时间:2023-06-08 22:11:30浏览次数:37  
标签:False 重复 negative DataFrame True pandas duplicated

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html

语法格式

DataFrame.duplicated(subset=Nonekeep='first')

参数解释:

  • suset: 指定某些列来标识重复项,默认情况下使用所有列;
  • keep: 确定标记哪些重复值。接受‘first’, ‘last’, False"first"表示将重复值第一次出现以外的其他情况标记为True"last"表示将重复值最后一次出现以外的其他情况标记为TrueFalse表示将所有的重复均标记为True。默认为"first"

返回由每个重复行的布尔series。

代码示例

import pandas as pd

d1 = [[3,"negative",2],[4,"negative",6],[11,"positive",0],[12,"positive",2],[4,"negative",6],[3,"negative",6]]
df1 = pd.DataFrame(d1, columns=["ID","result","value"])
print(df1)

#  ID    result  value
# 0   3  negative      2
# 1   4  negative      6
# 2  11  positive      0
# 3  12  positive      2
# 4   4  negative      6
# 5   3  negative      6

df1.duplicated() #默认根据所有列将重复值第一次出现以外的其他情况标记为True
# 0    False
# 1    False
# 2    False
# 3    False
# 4     True
# 5    False
# dtype: bool

df1.duplicated(subset="ID",keep=False) #根据ID列将所有的重复均标记为True
# 0     True
# 1     True
# 2    False
# 3    False
# 4     True
# 5     True
# dtype: bool

df1.duplicated(keep="last") #将重复值最后一次出现以外的其他情况标记为True
# 0    False
# 1     True
# 2    False
# 3    False
# 4    False
# 5    False
# dtype: bool

 

标签:False,重复,negative,DataFrame,True,pandas,duplicated
From: https://www.cnblogs.com/chaimy/p/17466299.html

相关文章

  • ApacheCN Pandas 教程集
    Pandas秘籍零、前言一、Pandas基础二、数据帧基本操作三、开始数据分析四、选择数据子集五、布尔索引六、索引对齐七、分组以进行汇总,过滤和转换八、将数据重组为整齐的表格九、组合Pandas对象十、时间序列分析十一、Pandas,Matplotlib和Seaborn的可视化Pandas学习手册中文......
  • Python pandas库操作 excel
    Pythonpandas库操作excel特别提示:pandas库是基于numpy库的软件库,因此安装Pandas之前需要先安装numpy库。默认的pandas不能直接读写excel文件,需要安装读、写库即xlrd、xlwt才可以实现xls后缀的excel文件的读写,要想正常读写xlsx后缀的excel文件,还需要安装openpyxl库。数据......
  • 【pandas基础】--数据统计
    在进行统计分析时,pandas提供了多种工具来帮助我们理解数据。pandas提供了多个聚合函数,其中包括均值、标准差、最大值、最小值等等。此外,pandas还可以进行基于列的统计分析,例如通过groupby()函数对数据进行聚合,并计算每组的统计分析结果。除了基本的统计分析之外,pandas还可以进......
  • 【理论积累】Python中的Pandas库【一】
    Pandas库介绍Pandas是一个用于数据分析的Python第三方库,能够处理和分析不同格式的数据,例如:CSV、Excel、SQL数据库等。Pandas提供了两种数据结构,分别为Series和DataFrame,灵活而方便地进行数据分析和操作。以下是Pandas的核心概念和功能:Series:类似于NumPy的ndarra......
  • 【pandas基础】--索引和轴
    在pandas中,索引(index)是用于访问数据的关键。它为数据提供了基于标签的访问能力,类似于字典,可以根据标签查找和访问数据。而pandas的轴(axis)是指数据表中的一个维度,可以理解为表格中的行和列。通过指定轴,我们可以对数据进行切片、筛选、聚合等操作。下面简要介绍pandas的索引和轴......
  • python——pandas数据分析(表格处理)工具实现Apriori算法
    pandas是基于NumPy的一种工具,名字很卡哇伊,来源是由“Paneldata”(面板数据,一个计量经济学名词)两个单词拼成的。pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。主要应用于处理大型数据集。数据处理速度算是最大的特色,剩下的就是个python版的exc......
  • pandas str to int 批量转换
    df[['列名1','列名2']]=df[['列名1','列名2']].apply(pd.to_numeric,errors='ignore')pandas.to_numeric补充用法:pandas.to_numeric(arg,errors=’raise’,downcast=None)参数:此方法将采用以下参数:arg:列表、元组、一维数组或系列。errors:{‘ig......
  • pandas 增加行 插入行
    pandas增加行方法locconcatpandas增加列方法[列名]#可结合np.where等判断函数concat(axis=1)merge#merge(how='left')+drop_duplicates(left_df.columns)==vlookupjoininsert......
  • 【pandas基础】--日期处理
    时间序列数据是数据分析中一类常见且重要的数据。它们按照时间顺序记录,通常是从某些现象的观察中收集的,比如经济指标、气象数据、股票价格、销售数据等等。时间序列数据的特点是有规律地随着时间变化而变化,它们的变化趋势可以被分析和预测。时间序列分析是一种用于预测未来值或......
  • pandas value_counts() 会忽略统计nan 但是不会忽略 true false
    pandasvalue_counts()会忽略统计nan 但是不会忽略truefalse'''每列包含多少项nan'''foriindf_2:print(df_2.loc[:,i].isna().value_counts())应用'''每列包含多少项nan'''dict_counts={}foriindf_2:......