使用 Python + Beautiful Soup 抓取任何包含 5 个数字的字符串

时间：2024-07-30 14:29:13浏览次数：8

我住在德国，那里的邮政编码在大多数情况下都是 5 位数字。 53525。我真的很想使用 beautiful Soup 从网站中提取该信息。

我是 Python/Beautiful Soup 的新手，我不知道如何将“查找连续的每 5 个数字 + “空格””翻译成Python语言。

import requests
import urllib.request,re
from bs4 import BeautifulSoup

source = requests.get('DOMAIN').text
soup = BeautifulSoup(source, 'lxml')
soup.find_all(NOTSUREHERE)

你可以使用正则表达式来查找包含 5 个数字的字符串。以下是用 Python 和 Beautiful Soup 编写的代码示例：

import requests
import re
from bs4 import BeautifulSoup

source = requests.get('https://example.com').text  # 替换为你的目标网址
soup = BeautifulSoup(source, 'lxml')

zip_codes = []
for element in soup.find_all(text=re.compile(r'\b\d{5}\b')):
    zip_codes.append(element.strip())

print(zip_codes)

这段代码会：

发送请求并解析网页： 使用 requests.get() 获取网页内容，并使用 BeautifulSoup 解析 HTML。
查找包含 5 位数字的文本： 使用 soup.find_all(text=re.compile(r'\b\d{5}\b')) 来查找所有包含 5 位数字的文本。
- \b 匹配单词边界，确保我们匹配的是独立的 5 位数字，而不是更长数字的一部分。
- \d{5} 匹配 5 个连续的数字。
提取并存储邮政编码： 循环遍历所有匹配的文本，使用 .strip() 去除空格，并将结果存储在 zip_codes 列表中。
打印结果： 打印找到的所有邮政编码。

注意： 这段代码会查找所有包含 5 位数字的文本，而不仅仅是邮政编码。如果网页中还有其他 5 位数字的内容，你需要根据网页结构进一步筛选结果。

你可以将 https://example.com 替换为你想要抓取的网站地址。

标签：python,regex,web-scraping
From： 50570910

如何测试 python 类型协议是另一个协议的子类？
该问题的明显解决方案是使用issubclass，但这会引发TypeError（使用Python3.6.7），例如>>>fromtyping_extensionsimportProtocol>>>classProtoSubclass(Protocol):...pass...>>>issubclass(ProtoSubclass,Protocol)Traceback(mos......
Python：指定与继承一起使用的类方法的返回类型
我一直在尝试了解如何在Python中指定类方法的返回类型，以便即使对于子类也能正确解释它（例如在我的Sphinx文档中）。假设我有：classParent:@classmethoddefa_class_method(cls)->'Parent':returncls()classChild(Parent):pass什么如......
python使用SMTP功能发送邮件
网页格式发送for_email.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>Title</title><style>h1{color:brown;}p{margin:5px;color:purple......
python之代码简化式（列表、字典生成式，递归函数，迭代器(iter)和生成器(yield)、匿名函数(
文章目录前言1、列表、字典生成式2、递归函数2.1python中代码的递归深度（扩展）3、拓展：迭代器和生成器3.1迭代器（iter）3.2生成器（yield）4、匿名函数（lambda）4.1map函数4.2reduce函数（较少使用）4.3filter函数前言本文主要讲解一些简化代码格式的一些方法，方便大家更好的......
Python：在 Protocol 和 TypedDict 之间共享类型注释
举这个简单的例子：from__future__importannotationsimporttypingastclassMyType:def__init__(self,s:str,i:int)->None:self.s=sself.i=iclassMyProto(t.Protocol):s:stri:intclassMyDict(t.TypedDict):......
PIL 和 python 静态类型
我有一个函数参数，它可以接受图像的多种类型：defsomefunc(img:Union[np.array,Image,Path,str]):PILImage在这种情况下抛出以下异常：TypeError:Union[arg,...]:eachargmustbeatype.Got<module'PIL.Image'from...进一步检查图像对象后这才有......
学会用Python爬取小说网站，想看什么就爬什么，广告也不用看了~
今天以爬取笔趣阁小说网站为例，练习Python爬虫技术。通过这个爬虫，可以完成批量爬取一本小说的所有章节，并将所有章节内容按顺序保存到一个txt文档内，下面我们就开始吧。首先，百度搜索“笔趣阁”，发现有很多网站都叫笔趣阁。我们可以随便挑选一个网站尝试，本文我以‘https://......
计算机毕业设计django+vue《Python数据分析》的教学系统【开题+论文+程序】
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在当今数字化时代，数据分析已成为各行各业不可或缺的技能之一，而Python作为数据分析领域的首选语言，其重要性日益凸显。然而，传统的教学模式在......
如何将多个变量分配给 python 函数中的单个参数？
我正在尝试编写一个程序，如果可能的话，它需要一个三项式并对其进行因式分解。每当用户输入A、B和C时，三项式应该通过Factor(product,summation)函数获取，但我似乎无法弄清楚如何将A和C分配给乘积arg，将B分配给我尝试在函数外部声明不同的变量，product=(a*c)和summati......
python - 从文本生成音乐
请给我一些建议为了解释一下，我输入“深度睡眠的睡眠音乐”，它将返回一个wav文件：https://www.youtube.com/watch?v=1wAdQhFJy54或者我给出一个wav文件，它会返回相同的现在这是我尝试过的：https://github.com/facebookresearch/audiocraft......

使用 Python + Beautiful Soup 抓取任何包含 5 个数字的字符串

相关文章

赞助商

阅读排行