首页 > 编程问答 >使用 Python + Beautiful Soup 抓取任何包含 5 个数字的字符串

使用 Python + Beautiful Soup 抓取任何包含 5 个数字的字符串

时间:2024-07-30 14:29:13浏览次数:8  
标签:python regex web-scraping

我住在德国,那里的邮政编码在大多数情况下都是 5 位数字。 53525。我真的很想使用 beautiful Soup 从网站中提取该信息。

我是 Python/Beautiful Soup 的新手,我不知道如何将“查找连续的每 5 个数字 + “空格””翻译成Python语言。

import requests
import urllib.request,re
from bs4 import BeautifulSoup

source = requests.get('DOMAIN').text
soup = BeautifulSoup(source, 'lxml')
soup.find_all(NOTSUREHERE)


你可以使用正则表达式来查找包含 5 个数字的字符串。以下是用 Python 和 Beautiful Soup 编写的代码示例:

import requests
import re
from bs4 import BeautifulSoup

source = requests.get('https://example.com').text  # 替换为你的目标网址
soup = BeautifulSoup(source, 'lxml')

zip_codes = []
for element in soup.find_all(text=re.compile(r'\b\d{5}\b')):
    zip_codes.append(element.strip())

print(zip_codes)

这段代码会:

  1. 发送请求并解析网页: 使用 requests.get() 获取网页内容,并使用 BeautifulSoup 解析 HTML。
  2. 查找包含 5 位数字的文本: 使用 soup.find_all(text=re.compile(r'\b\d{5}\b')) 来查找所有包含 5 位数字的文本。
    • \b 匹配单词边界,确保我们匹配的是独立的 5 位数字,而不是更长数字的一部分。
    • \d{5} 匹配 5 个连续的数字。
  3. 提取并存储邮政编码: 循环遍历所有匹配的文本,使用 .strip() 去除空格,并将结果存储在 zip_codes 列表中。
  4. 打印结果: 打印找到的所有邮政编码。

注意: 这段代码会查找所有包含 5 位数字的文本,而不仅仅是邮政编码。如果网页中还有其他 5 位数字的内容,你需要根据网页结构进一步筛选结果。

你可以将 https://example.com 替换为你想要抓取的网站地址。

标签:python,regex,web-scraping
From: 50570910

相关文章

  • 如何测试 python 类型协议是另一个协议的子类?
    该问题的明显解决方案是使用issubclass,但这会引发TypeError(使用Python3.6.7),例如>>>fromtyping_extensionsimportProtocol>>>classProtoSubclass(Protocol):...pass...>>>issubclass(ProtoSubclass,Protocol)Traceback(mos......
  • Python:指定与继承一起使用的类方法的返回类型
    我一直在尝试了解如何在Python中指定类方法的返回类型,以便即使对于子类也能正确解释它(例如在我的Sphinx文档中)。假设我有:classParent:@classmethoddefa_class_method(cls)->'Parent':returncls()classChild(Parent):pass什么如......
  • python使用SMTP功能发送邮件
    网页格式发送for_email.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><title>Title</title><style>h1{color:brown;}p{margin:5px;color:purple......
  • python之代码简化式(列表、字典生成式,递归函数,迭代器(iter)和生成器(yield)、匿名函数(
    文章目录前言1、列表、字典生成式2、递归函数2.1python中代码的递归深度(扩展)3、拓展:迭代器和生成器3.1迭代器(iter)3.2生成器(yield)4、匿名函数(lambda)4.1map函数4.2reduce函数(较少使用)4.3filter函数前言本文主要讲解一些简化代码格式的一些方法,方便大家更好的......
  • Python:在 Protocol 和 TypedDict 之间共享类型注释
    举这个简单的例子:from__future__importannotationsimporttypingastclassMyType:def__init__(self,s:str,i:int)->None:self.s=sself.i=iclassMyProto(t.Protocol):s:stri:intclassMyDict(t.TypedDict):......
  • PIL 和 python 静态类型
    我有一个函数参数,它可以接受图像的多种类型:defsomefunc(img:Union[np.array,Image,Path,str]):PILImage在这种情况下抛出以下异常:TypeError:Union[arg,...]:eachargmustbeatype.Got<module'PIL.Image'from...进一步检查图像对象后这才有......
  • 学会用Python爬取小说网站,想看什么就爬什么,广告也不用看了~
    今天以爬取笔趣阁小说网站为例,练习Python爬虫技术。通过这个爬虫,可以完成批量爬取一本小说的所有章节,并将所有章节内容按顺序保存到一个txt文档内,下面我们就开始吧。首先,百度搜索“笔趣阁”,发现有很多网站都叫笔趣阁。我们可以随便挑选一个网站尝试,本文我以‘https://......
  • 计算机毕业设计django+vue《Python数据分析》的教学系统【开题+论文+程序】
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景在当今数字化时代,数据分析已成为各行各业不可或缺的技能之一,而Python作为数据分析领域的首选语言,其重要性日益凸显。然而,传统的教学模式在......
  • 如何将多个变量分配给 python 函数中的单个参数?
    我正在尝试编写一个程序,如果可能的话,它需要一个三项式并对其进行因式分解。每当用户输入A、B和C时,三项式应该通过Factor(product,summation)函数获取,但我似乎无法弄清楚如何将A和C分配给乘积arg,将B分配给我尝试在函数外部声明不同的变量,product=(a*c)和summati......
  • python - 从文本生成音乐
    请给我一些建议为了解释一下,我输入“深度睡眠的睡眠音乐”,它将返回一个wav文件:https://www.youtube.com/watch?v=1wAdQhFJy54或者我给出一个wav文件,它会返回相同的现在这是我尝试过的:https://github.com/facebookresearch/audiocraft......