首页 > 编程问答 >在Python 3中删除两个指定字符串之间的字符串

在Python 3中删除两个指定字符串之间的字符串

时间:2024-07-26 06:01:12浏览次数:17  
标签:python regex

我正在从事一个 NLP 项目,该项目要求我从一段文本中删除计算机代码。代码包含在标签 <pre><code> </code></pre> 之间。现在我可以做一个简单的正则表达式匹配,但我想概括这个函数,以便它可以删除任何两个指定字符串之间的文本,即使它们是嵌套的。 例如,如果我有一个字符串:

string = "<pre><code> Should be deleted <pre><code> also deleted </code></pre> delete this too </code></pre> don't delete <pre><code> delete </code></pre> "

,那么我期望输出为字符串 " don't delete "

如果我这样做 re.sub('(<pre><code>)(.*)(</code></pre>)', '', string) ,它会给我一个空字符串。

我知道如何对单个字符执行此操作,例如删除大括号之间的字符串。例如,如果我的字符串是 string = "{ Should be deleted { also deleted } delete this too } don't delete { delete } " ,那么这样做会给我所需的输出:

a = '{'
b = '}'
regexp = a +  '[^' +a + '^' + b + ']*' + b

while a in string or b in string:
  string = re.sub(regexp, '', string)

regexp 评估到 '{[^{^}]*}' 此处。 while 循环是必要的,因为像 re.sub(r'{[^{^}]*}', '', string) 这样的解决方案不适用于嵌套情况。

我尝试通过执行 re.sub('(<pre><code>)[^(</code></pre>)^(<pre><code>)](</code></pre>)', '', string) 应用与单字符情况相同的逻辑,但它会产生输出: "<pre><code> Should be deleted <pre><code> also deleted </code></pre> delete this too </code></pre> don't delete <pre><code> delete </code></pre> " 这意味着没有任何内容匹配。


你几乎做到了!问题在于正则表达式的贪婪匹配行为。让我们将其分解:

  1. 贪婪匹配: (.*) 会尽可能多地匹配任何字符(包括换行符),这会导致它匹配第一个 &lt;pre&gt;&lt;code&gt; 到最后一个 &lt;/code&gt;&lt;/pre&gt; 之间的所有内容,包括嵌套的标签。

  2. 非贪婪匹配: 要解决这个问题,你需要使用非贪婪匹配。在量词(如 * + ? )后面添加 ? 可以使其成为非贪婪的。所以,你需要将 (.*) 改为 (.*?)

以下是更新后的代码:

import re

string = "&lt;pre&gt;&lt;code&gt; Should be deleted &lt;pre&gt;&lt;code&gt; also deleted &lt;/code&gt;&lt;/pre&gt; delete this too &lt;/code&gt;&lt;/pre&gt; don't delete &lt;pre&gt;&lt;code&gt; delete &lt;/code&gt;&lt;/pre&gt; "
start_tag = "&lt;pre&gt;&lt;code&gt;"
end_tag = "&lt;/code&gt;&lt;/pre&gt;"

regexp = f"{start_tag}(.*?){end_tag}"
result = re.sub(regexp, '', string)

print(result)  # 输出: don't delete

解释:

  • (.*?) 现在会匹配尽可能少的字符,直到找到下一个 &lt;/code&gt;&lt;/pre&gt;
  • f"{start_tag}(.*?){end_tag}" 使用 f-string 动态地创建正则表达式,使其更易于阅读和修改。

现在,代码可以正确地删除两个指定字符串之间的所有内容,即使它们是嵌套的。

标签:python,regex
From: 78795570

相关文章

  • Azure Open AI - Python 和 Java API 之间 gpt4o 的结果截然不同
    我使用Java和PythonAPI对AzureOpenAI进行相同的调用,但收到截然不同的结果:相同的系统提示相同的用户提示适用于Java和Python的azureai包的相同(最新)版本尽管输入的用户和系统提示完全相同,但响应却非常不同-python提示是“正确的”并......
  • leetcode 输出错误? (Python)
    我的VSCode/本地终端给出了[1,4,1,5,1,6]的正确输出,但不知何故leetcode给了我完全不同的输出。我在这里错过了什么吗?这怎么可能?顺便说一下,这是wigglesort2将我的本地代码复制粘贴到leetcode中给出了不同的输出数组很难在没有看到你的代码的情况下......
  • 当 python 窗口的一部分不在屏幕上时,如何让它自己被记录?
    在Windows10中,大多数应用程序窗口都可以使用OBS等程序进行记录。当窗口被拖动以致其部分内容在显示屏上不可见时,通常OBS仍会接收窗口的内容,即使它在屏幕上不可见。但是,在编写python应用程序时,这似乎不以相同的方式工作。我尝试了几种不同的类似GUI的模块......
  • 使用 aws cdk 设置用户池客户端属性以具有读/写访问权限 - Python
    我试图根据属性给予一些自定义属性特定的读/写访问权限。我收到此错误。资源处理程序返回消息:“无效写入创建客户端时指定的属性(服务:CognitoIdentityProvider,状态代码:400,请求ID:<request_id>)”(RequestToken:<request_token>,HandlerErrorCode:InvalidRequest)任何人都可以为......
  • 试图找出此页面的逻辑:存储了大约 ++ 100 个结果 - 并使用 Python 和 BS4 进行了解析
    试图找出此页面背后的逻辑:我们已将一些结果存储在以下数据库中:https://www.raiffeisen.ch/rch/de/ueber-uns/raiffeisen-gruppe/Organization/raiffeisenbanken/deutsche-schweiz.html#accordionitem_18104049731620873397从a到z大约:120个结果或更多:......
  • 如何在 Numpy Python 中将 4 维数组的下三角形复制到上三角形?
    目标是将下三角形复制到上三角形。根据OP中提出的建议,起草了以下代码。importnumpyasnplw_up_pair=np.tril_indices(4,-1)arr=np.zeros((4,4,1,1))arr[1,:1,:,0]=1arr[2,:2,0,0]=2arr[3,:3,0,0]=3arr=arr+arr.T-np.diag(np.diag(arr))但是,它......
  • 如何在 Python 中对多行使用单个 INSERT INTO 语句?
    我目前正在开发一个DiscordPython机器人,我在其中循环遍历ForumTags列表,并为每个对象生成INSERTINTOSQL语句以将数据插入MySQL数据库。但是,我想要通过将所有这些单独的INSERTINTO语句组合到单个查询中来优化我的代码,如下所示:INSERTINTO......
  • 双 for 循环的 Pythonic 方式
    我有以下代码:importnumpyasnpepsilon=np.array([[0.,0.00172667,0.00071437,0.00091779,0.00154501],[0.00128983,0.,0.00028139,0.00215905,0.00094862],[0.00035811,0.00018714,0.,0.00029365,0.00036993......
  • 在 matplotlib 中绘制一个字符串函数 // 将 str 解释为 python 代码?
    我正在创建一个RPN计算器,尝试绘制用户给出的函数。例如,如果用户输入"xsin3*plot"我希望它绘制sin(x)*3其代码如下。注意:问题在ifprompt=="plot"userInputX=""#userInputXisalwaysreplacedbefore......
  • Python (Pebble) - 超时功能。当 TimeoutError 发生时,获取从 iterable 传递给函数的值
    我正在尝试在Pebble中设置工作超时(基本上有效)frompebbleimportProcessPoolfrommultiprocessingimportProcess,Pool,cpu_countimporttimedeftest_fn(randomNumberFromList):#print(f'Beginngingforthisnumber:{randomNumberFromList}')ifr......