Pandas 合并重复行

时间：2024-08-01 06:14:20浏览次数：14

标签：python pandas

我有一个特定的用例，其中我有 2 个数据帧，它们有 2 个相同的行（除了 1 列）。相同的行，我需要与相同的行匹配，任何不匹配的行都需要垂直堆叠。

这是场景

df1 = pd.Dataframe({
'id': [0, 1, 2], 
'account': ['a', 'b', 'c'], 
'details': [
    [
        {'a': 'b'},
        {'c': 'd'}
    ],
    [
        {'e': 'f'},
        {'g': 'h'}
    ],
    [
        {'a': 'b'},
        {'c': 'd'}
    ]
]})
df2 = pd.Dataframe({
'id': [0, 1, 3],
'account': ['a', 'b', ‘g’],
'details': [
    [
        {'a': 'b'},
        {'c': 'd'}],
    [
        {'e': 'f'},
        {'g': 'h'}
    ] 
    [
        {'e': 'f'},
        {'g': 'h'}
    ]
],
'attempts': [4, 5, 6]
})

我需要获取类似于下面的数据框。我尝试合并，但我丢失了 df2 中左连接不匹配的行。如果我连接，我需要删除重复项并使用填充的 attempts 字段更新该行。也有可能是另一种方式，其中 df2 也有需要合并到 df1 中的唯一行

result = pd.Dataframe({
'id': [0, 1, 2, 3],
'account': ['a', 'b', 'c', ‘g’],
'details': [
    [
        {'a': 'b'},
        {'c': 'd'}
    ],
    [
        {'e': 'f'},
        {'g': 'h'}
    ],
    [
        {'a': 'b'},
        {'c': 'd'}
    ], 
    [
        {'e': 'f'},
        {'g': 'h'}
    ],
],
'attempts': [4, 5, NaN, 6]
})

import pandas as pd

df1 = pd.DataFrame({
    'id': [0, 1, 2],
    'account': ['a', 'b', 'c'],
    'details': [
        [
            {'a': 'b'},
            {'c': 'd'}
        ],
        [
            {'e': 'f'},
            {'g': 'h'}
        ],
        [
            {'a': 'b'},
            {'c': 'd'}
        ]
    ]
})
df2 = pd.DataFrame({
    'id': [0, 1, 3],
    'account': ['a', 'b', 'g'],
    'details': [
        [
            {'a': 'b'},
            {'c': 'd'}
        ],
        [
            {'e': 'f'},
            {'g': 'h'}
        ],
        [
            {'e': 'f'},
            {'g': 'h'}
        ]
    ],
    'attempts': [4, 5, 6]
})

# 将 'details' 列转换为字符串，以便我们可以将其用于合并
df1['details_str'] = df1['details'].astype(str)
df2['details_str'] = df2['details'].astype(str)

# 在 'id' 和 'details' 列上执行外连接
result = pd.merge(df1, df2, on=['id', 'details_str'], how='outer')

# 删除重复列并将 'account' 和 'attempts' 列的值合并到左侧数据帧
result['account'] = result['account_x'].fillna(result['account_y'])
result['attempts'] = result['attempts_y'].fillna(result['attempts_x'])

# 删除不需要的列并重命名合并后的数据帧
result = result[['id', 'account', 'details_x', 'attempts']]
result = result.rename(columns={'details_x': 'details'})

# 打印结果数据帧
print(result)

这将给出期望的结果：

   id account                     details  attempts
0   0       a  [{'a': 'b'}, {'c': 'd'}]       4.0
1   1       b  [{'e': 'f'}, {'g': 'h'}]       5.0
2   2       c  [{'a': 'b'}, {'c': 'd'}]       NaN
3   3       g  [{'e': 'f'}, {'g': 'h'}]       6.0

此代码首先通过将 details 列表转换为字符串来创建一个新的 details_str 列。这是必要的，因为我们不能直接在列表列上合并。然后，它在 id 和 details_str 列上执行外部联接。这将创建一个包含来自两个数据帧的所有行的数据帧，并在匹配的行上具有相同的 id 和 details_str 值。

然后，代码通过从 account_x 和 account_y 列中获取第一个非空值来填充 account 列。它对 attempts 列执行相同的操作。最后，它删除不需要的列并重命名合并后的数据帧。

此解决方案有效地合并了两个数据帧中的重复行，同时保留了唯一行并填充了缺失值。

标签：python,pandas
From： 78818454

Python Selenium 单击 webdriverwait 与 find_element
我无法理解这两个代码块之间的区别。发送点击在webdriverwait和find_elements中都有效。代码1fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.support.uiimportWebDriverWaitfromselenium.webdriver.suppo......
Python 问题如何创建在 PDF 中注册为剪切线的专色？
我正在开发一个项目，需要我在图像周围创建一条剪切线，但在任何RIP程序（例如Versaworks或Flexi）上将其注册为实际剪切线时遇到困难。我尝试了很多不同的方法python库可以帮助解决这个问题，但我无法让它工作。我希望它像我们在Illustrator中所做的那样，创建一条名为CutConto......
有没有办法将 geopandas 函数应用于除了引发错误的行之外的所有行？
我正在尝试将缓冲区应用于600,000行的地理数据帧（作为更大过程的一部分），gdf包含几何线串和多线串。当我运行缓冲区代码行时：gdf['buffer_geometry']=gdf.buffer(305)我收到以下错误：GEOSException：TopologyException：分配的深度在-122500003700000处不匹配我......
使用Python时如何避免`setattr`（和`getattr`）？以及是否有必要避免
如果我想向协议缓冲区中的字段添加一个在编译时未知的值，我目前正在做setattr我通常不喜欢使用setattr，因为它看起来不太安全。但是当我知道该对象是protobuf时，我认为这很好，因为我设置它的值必须是protobuf允许的类型。所以也许它并不是真的不安全？让我举......
Java sshtools 生成的 EDDSA 签名与 Python 的 pycryptome 生成的签名不匹配
我有一个python库，它使用pycryptodomelibrary使用openssh格式的ED25519私钥使用Ed25519算法对数据进行签名。然后需要使用sshtools库和相应的公钥在Java应用程序中验证签名。但是签名验证失败。约束：从文件中读取私钥/公钥很重要。我无法......
Elastic python请求超时错误：池达到最大大小，不允许更多连接
我正在使用Elasticsearchpython模块。我正在尝试像这样建立到服务器的连接es=Elasticsearch([config.endpoint],api_key=config.key,request_timeout=config.request_timeout)服务器连接，然后我尝试执行丰富策略。es.enr......
使用 python 将 JSON 数据空值导入数据库。收到此错误 - 数据需要字符串或类似字节的
我正在尝试使用python将JSON数据集导入到我的PostgreSQL数据库，但在尝试导入null值时会抛出错误。表的名称是Loan_info。我在python中尝试过此操作：-forfieldinloan_info:ifloan_info[field]in['Null','null',None]:......
Python 将脚本转换为 exe 并给出 PermissionError
我有一个Python(Windows10)脚本，其功能之一是创建备份。这是函数：defcreate_backups(self,file:str,counter:int=None)->None:counter=counteror1res=self.re_obj.match(file)ifresisNoneorlen(res.groups())==0:back_file=......
conda update python 不会更新，但 conda update --all 会更新
我正在尝试更新我的venv。这就是我看到的(base_test)>condaupdatepythonCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewerversionofcondaexists.<==currentversion:4.10.3latestversion:24......
如何使用 Selenium (python) 访问另一个影子根中影子根中的元素？
我有以下代码和HTML结构（我不是这方面的专家）。我正在尝试抓取HTML代码末尾的96.00C元素，其路径是：Xpath://*[@id="_grid"]/set-class2/div2/text-binding//text()完整Xpath：/html/body/main/div/div3/div3/......

Pandas 合并重复行

相关文章

赞助商

阅读排行