如何从pandas中的字符串中提取带有变量的正则表达式？

时间：2024-07-29 09:17:55浏览次数：18

我有一个包含文本的数据框列，我想创建一个新列，其中包含带有名称的句子，但没有其他句子。希望最终结果如下所示：

我能够从名称列表中识别包含名称的单元格，但我在提取包含名称的句子的部分上遇到了困难。

import re
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'ColumnA': ['Lorum ipsum. This is approved. Lorum Ipsum.', 'Lorum Ipsum. Send the contract to May. Lorum Ipsum.', 'Junk Mail from Brian.']
})


last_names_list = ['May','Brian']

df['last_names'] = ''
for x in last_names_list:
    df['last_names'] = np.where(df['ColumnA'].str.contains(x),x,df['last_names'])

def f(x,y):
    return re.findall(fr'[^.]{x}[^.]',y)

df['col_3'] = df.apply(lambda x: f(x['last_names'],x['ColumnA']), axis=1)

print(df)

当我打印数据帧中，每行具有名称的 df[col_3'] 都会生成一个空列表。

任何帮助表示赞赏。

在尝试从 Pandas 数据帧列中的字符串中使用变量提取正则表达式的代码中出现错误。的 f(x, y) 函数存在问题，因为 [^.] 将匹配除句点以外的任何字符，而需要找到包含名称的整个句子。

以下是对的代码进行修复的方法：

import re
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'ColumnA': ['Lorum ipsum. This is approved. Lorum Ipsum.', 'Lorum Ipsum. Send the contract to May. Lorum Ipsum.', 'Junk Mail from Brian.']
})

last_names_list = ['May', 'Brian']

df['last_names'] = ''
for x in last_names_list:
    df['last_names'] = np.where(df['ColumnA'].str.contains(x), x, df['last_names'])

def f(x, y):
    for name in last_names_list:
        match = re.search(fr'[^.]*{re.escape(name)}[^.]*\.', x)
        if match:
            return match.group(0).strip()
    return ''

df['col_3'] = df.apply(lambda row: f(row['ColumnA'], row['last_names']), axis=1)

print(df)

说明：

使用 re.escape(name) ： 这对于确保正则表达式正确处理名称中的任何特殊字符（例如“.”或“*”）至关重要。
找到包含名称的整个句子： 正则表达式 [^.]*{re.escape(name)}[^.]*\. 查找以下内容：
[^.]* ：任何数量的非句点字符。
{re.escape(name)} ：提供的名称。
[^.]* ：任何数量的非句点字符。
\. ：一个句点，匹配句子的结尾。
使用 search 而不是 findall ： 由于我们只在每个字符串中查找一个句子，因此 re.search 比 re.findall 更合适。
使用 match.group(0) 获取匹配的句子： 如果找到匹配项， match.group(0) 将返回匹配的完整句子。
处理未找到名称的情况： 如果在循环中没有找到名称，则该函数将返回一个空字符串。

通过这些更改，的 col_3 现在应包含包含列表中姓名的预期句子。

标签：python,pandas,regex,variables
From： 78805127

【Python学习手册（第四版）】学习笔记06-Python动态类型-赋值模型详解
个人总结难免疏漏，请多包涵。更多内容请查看原文。本文以及学习笔记系列仅用于个人学习、研究交流。主要介绍Python的动态类型（也就是Python自动为跟踪对象的类型，不需要在脚本中编写声明语句），Python中变量和对象是如何通过引用关联，垃圾收集的概念，对象共享引用是如何影响多个变量......
Python学习手册（第四版）】学习笔记09.3-Python对象类型-分类、引用VS拷贝VS深拷贝、比较
个人总结难免疏漏，请多包涵。更多内容请查看原文。本文以及学习笔记系列仅用于个人学习、研究交流。这部分稍杂，视需要选择目录读取。主要讲的是对之前的所有对象类型作复习，以通俗易懂、由浅入深的方式进行介绍，所有对象类型共有的特性（例如，共享引用），引用、拷贝、深拷贝，以及比较、......
《最新出炉》系列入门篇-Python+Playwright自动化测试-56- 多文件上传 - 下篇
1.简介前边的两篇文章中，宏哥分别对input控件上传文件和非input控件上传文件进行了从理论到实践地讲解和介绍，但是后来又有人提出疑问，前边讲解和介绍的都是上传一个文件，如果上传多个文件，Playwright是如何实现的呢？宏哥看了一下官方的API也有上传多个文件的API，那么今天就来讲解和介绍......
如何更新 numpy 2 的 python 模块？
在带有pip的Linux上，新的numpy2似乎可以很好地与pandas配合使用：$python3-c'importnumpyasnp;print(np.__version__);importpandasaspd;print(pd.__version__)'2.0.12.2.2但是，在带有miniconda的Windows上，我得到$${localappdata}/miniconda3/en......
python BioChemist 数据集的数据字典/描述
我正在使用生物化学家数据集。我在哪里可以找到包含每个变量描述的“数据字典”？这就是我正在查看的：importpandasaspdfrompydatasetimportdatadata('bioChemists')我已经用谷歌搜索并尝试寻找运算符，但没有运气！pydataset软件包不包含生物化学家数据集的描述......
python中的Telebot API不断断开连接
使用远程机器人，不断断开服务。我暂时让它在发生这种情况时重新启动。下面是我的代码和错误：importrandomimporttelebotfromtelebot.typesimportInlineKeyboardMarkup,InlineKeyboardButtonfromthreadingimportTimer,Eventfromdotenvimportload_dotenvimporto......
来自 PyArrow ChunkedArray 的虚拟编码 PyArrow 表，无需通过 pandas？
假设我importpyarrowaspaca=pa.chunked_array([['a','b','b','c']])print(ca)<pyarrow.lib.ChunkedArrayobjectat0x7fc938bcea70>[["a","b","b","......
如何用Python制作Android服务？
我想构建一个简单的Android应用程序，例如PushOver应用程序，它具有TCP服务器并接收其记录的文本消息，然后将其作为推送通知发送。这部分已经完成并且工作正常。但即使GUI应用程序关闭，我也想接收消息。我知道这是可能的，因为PushOver应用程序做到了！我想，我可能需要一......

如何从pandas中的字符串中提取带有变量的正则表达式？

相关文章

赞助商

阅读排行