pandas 获取不在其他数据框中的行

时间：2024-08-08 15:58:35浏览次数：22

标签：python pandas dataframe

我有两个 pandas 数据框，它们有一些共同的行。

假设 dataframe2 是 dataframe1 的子集。

如何获取 dataframe1 中不存在于 dataframe2 中的行？

df1 = pandas.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) 
df2 = pandas.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})

df1

   col1  col2
0     1    10
1     2    11
2     3    12
3     4    13
4     5    14

df2

   col1  col2
0     1    10
1     2    11
2     3    12

预期结果：

   col1  col2
3     4    13
4     5    14

import pandas as pd

df1 = pd.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 'col2' : [10, 11, 12, 13, 14]}) 
df2 = pd.DataFrame(data = {'col1' : [1, 2, 3], 'col2' : [10, 11, 12]})

#使用~和merge获得df1中不存在于df2中的行。
df_diff = df1[~df1.isin(df2).all(axis=1)]

print(df_diff)

这将打印以下输出：

   col1  col2
3     4    13
4     5    14

这段代码是如何工作的：

df1[~df1.isin(df2).all(axis=1)] : 这段代码使用布尔索引从 df1 中选择行。让我们将其分解为：
df1.isin(df2) : 这将创建一个布尔 DataFrame，其中如果 df1 中的值也存在于 df2 中，则为 True ，否则为 False 。
.all(axis=1) : 这会检查每一行是否所有值都为 True （意味着该行完全存在于 df2 中）。
~ : 此运算符反转布尔值，因此我们选择所有行，其中至少有一个值不存在于 df2 中。

这有效地过滤了 df1 ，只留下 df2 中没有的那些行。

注意： 此解决方案假定两个 DataFrame 的列名相同。如果列名不同，则需要在使用 isin 和 merge 方法之前重命名列，或者在 merge 中指定要比较的列。

标签：python,pandas,dataframe
From： 28901683

Python 熊猫迭代
代码：#Importcarsdataimportpandasaspdcars=pd.read_csv('cars.csv',index_col=0)#Adaptforloopforlab,rowincars.iterrows():print(f"{[lab]}:{row['cars_per_cap']}")输出：['US']:809['A......
【第九节】python中xml解析和json编解码
目录一、PythonXML解析1.1什么是XML1.2Python对XML的解析方法1.3SAX解析xml1.4xml.dom解析xml1.6ElementTree解析XML二、Python编解码json2.1什么是json2.2使用json库2.3使用第三方库Demjson一、PythonXML解析1.1什么是XML XML，......
从 python 设置运算符符号到方法名称的映射是什么？它们与文档不匹配
我创建了自己的Customset类，它实现了python集合的几乎所有方法。当我使用此自定义集的实例时，许多集合运算符都会失败。它们会失败，并显示类似以下内容的内容：TypeError:unsupportedoperandtype(s)for-:'Customset'andCustomset'orTypeError:'<='......
21.python函数（return）
return一、return语句1、return是指定一个返回值2、在python中创建一个函数，可以用return语句指定返回的的值，这个返回值可以是任意的类型3、return语句在同一个函数中可以出现多次，但是只有有一个得到执行，就会直接结束函数的执行。return后面的语句不执行了4、return的格式re......
【Python代码】如何根据出生日期计算出年龄？
哈喽，大家好，木易巷来啦！假设我们有一个包含出生日期的Excel文件，需要计算每个人的年龄，你会怎么做呢？具体情况如下图：今天木易巷分享通过Python及其强大的pandas库，来实现从Excel文件中读取日期数据，计算年龄，并将结果存储回Excel文件中的过程。话不多说，开干！▍1、环境准备在开......
python 无法解密重音字符（如 è），我该怎么办？
我正在解决这个ctf，您必须使用PyCryptodome模块通过DES加密消息。消息是“Launghezzadiquestafrasenonèdivisibileper8”（意大利语）。我无法将此消息转换为字节，因为重音字符不包含在utf-8中（我认为这就是解释）。有人可以帮我加密消息吗？fromCrypto.Util.Paddingimp......
Python笔记
Python1变量1、什么是变量变量是关联一个对象的标识符变量可以绑定一个对象，并可以通过变量名使用这个对象2、变量的命名方法：以字母或下划线开头，后面跟字母、下划线或者数字3、python中的关键字不能用作变量名4、变量无类型，对象有类型5、在交互模式下查看当前作用域内的......
如何在python中使用jdbc jar文件连接informix数据库
有什么想法如何使用jdbcjar文件连接到informix数据库吗？在python我尝试了jaydebeapi，当我执行时：conn=jaydebeapi.connect('com.informix.jdbc.IfxDriver',myurl,['user','pass'],jdbc_driver_path)...然后从表中选择数据的其余代码当我执行myscript.py它只......
Python爬虫实战：实时微信推送奥运奖牌榜信息
最近奥运会正在巴黎如火如荼地进行。为了能第一时间获得我国运动健儿的获奖情况，我给大家分享一个python爬虫项目——实时微信推送奥运奖牌榜信息。爬虫每隔5分钟抓取一次奥林匹克官网奖牌榜数据，对比上次抓取的数据，如果奖牌数量或者排名有变化，就将新的获奖信息推送到......
基于Python实现可视化分析中国500强排行榜数据的设计与实现
基于Python实现可视化分析中国500强排行榜数据的设计与实现“DesignandImplementationofVisualAnalysisforChina’sTop500CompaniesRankingDatausingPython”完整下载链接:基于Python实现可视化分析中国500强排行榜数据的设计与实现文章目录基于Python......

pandas 获取不在其他数据框中的行

相关文章

赞助商

阅读排行