首页 > 编程问答 >抓取数据uri图像

抓取数据uri图像

时间:2024-07-21 04:19:54浏览次数:10  
标签:python web-scraping uri

我想从网页中抓取图像,问题是图像作为数据 URI 包含在源代码中。如何将它们保存到文件中? (我只需要从特定的抓取数据 URI 代码访问 URI 图像)


以下是如何从网页中提取数据 URI 并将图像保存到文件的步骤:

1. 使用喜欢的语言和库获取网页的 HTML 源代码。

  • 例如,在 Python 中,可以使用 requests 库:

    ```python import requests

    url = 'https://example.com/your-webpage' response = requests.get(url) html_source = response.text ```

2. 从 HTML 源代码中提取数据 URI。

  • 可以使用正则表达式或选择的语言中的字符串操作功能来实现这一点。 数据 URI 的格式为 data:[<mediatype>][;base64],<data>
  • 例如,在 Python 中,可以使用 re 模块:

    ```python import re

    data_uri_pattern = r'data:image/(?:png|jpeg);base64,[a-zA-Z0-9+/]+=*' data_uris = re.findall(data_uri_pattern, html_source) `` 这将找到所有 png jpeg` 数据 URI(可以根据需要修改此模式)。

3. 将数据 URI 解码并保存为图像文件。

  • 数据 URI 通常使用 base64 编码。 可以使用选择的语言中的 base64 解码功能来解码数据。
  • 例如,在 Python 中:

    ```python import base64

    for i, data_uri in enumerate(data_uris): header, encoded = data_uri.split(",", 1) decoded = base64.b64decode(encoded)

     image_type = header.split(";")[0].split("/")[1]
     with open(f'image_{i}.{image_type}', 'wb') as f:
         f.write(decoded)
    

    `` 这会将每个数据 URI 解码为一个图像文件,文件名为 image_0.png image_1.jpg` 等(根据图像类型)。

其他提示:

  • 确保在抓取网站之前查看其服务条款。
  • 如果经常抓取数据 URI,使用诸如 BeautifulSoup (Python)之类的 HTML 解析库可能会使该过程更容易、更强大。
  • 可以使用 urllib.parse.urlparse (Python)等库来验证数据 URI 的格式,然后再尝试解码。

这些步骤可以帮助从网页中提取和保存数据 URI 图像。

标签:python,web-scraping,uri
From: 17308443

相关文章

  • 当值来自函数 python unittest 时,如何模拟全局变量
    我必须在python中模拟全局变量,但变量值来自另一个函数。当我导入文件时,这个函数正在运行,但我想要那里的模拟值。secrets.pyimporttracebackimportloggingimportboto3importosimportjsonlogger=logging.getLogger()logger.setLevel(logging.INFO)secret_......
  • 使用 python print 和 gdb 时出现 BrokenPipeError
    我正在尝试在Linux中运行应用程序并使用Python生成输入:python3-c'print(".....")'|./someapp但出现下一个错误:Exceptionignoredin:<_io.TextIOWrappername='<stdout>'mode='w'encoding='utf-8'>BrokenPipeError:......
  • python 舰队容器
    我正在尝试使用容器在flet中制作一个菜单,它应该是半透明的,但其中的项目不是。我尝试将opacity=1分配给元素,但没有成功-它们与容器一样透明感谢任何帮助我的代码:nickname=ft.TextField(label="xxx",hint_text="xxx")column=ft.Column(controls=[nickname......
  • Python应用程序跨子包共享的配置文件
    我正在构建一个应用程序来控制一些硬件。我在包中实现了不同类型的硬件:电机和测量设备。我的文件结构如下:name_of_my_app/__init__.pymain.pyconfig.iniCONFIG.pymotors/__init__.pyone_kind_of_motor.pymeasurement_devices/......
  • python中时间序列数据的梯度计算
    我正在尝试编写一个函数,它可以从最适合下面的线返回梯度dataframe在浏览了谷歌的几个资源之后,我仍然不确定这是如何完成的。我明白最佳拟合线的计算公式为:y=mx+b将因变量(y)设置为foos,将自变量(x)设置为DateTimeDatafram......
  • 调试用 C 编写的 Python 扩展
    我非常熟悉编写C代码,并且很擅长编写Python代码。我正在尝试学习如何用C编写可以从OSX10.15.7上的Python-3.9.X调用的模块。我已经得到了几个“helloworld”类型的示例,但是对于复杂的示例,我正在努力弄清楚如何调试我编写的C扩展。MWE:src/add.c//......
  • 具有块大小选项的 Python pandas read_sas 因索引不匹配而失败并出现值错误
    我有一个非常大的SAS文件,无法容纳在我的服务器内存中。我只需要转换为镶木地板格式的文件。为此,我使用pandas中chunksize方法的read_sas选项分块读取它。它主要是在工作/做它的工作。除此之外,一段时间后它会失败并出现以下错误。此特定SAS文件有794......
  • 使用 requests 包 python 时打开文件太多
    我正在使用Pythonrequests包向API发出大量请求。然而,在某些时候,我的程序由于“打开的文件太多”而崩溃。当我明确关闭我的会话时,我真的不知道这是怎么回事。我使用以下代码:importrequestsimportmultiprocessingimportnumpyasnps=requests.session()s.keep......
  • Python 是一种选择性解释语言吗?为什么下面的代码不起作用?
    由于程序是从上到下运行的,为什么下面的代码不执行块中的第一行就直接抛出错误?if5>2:print("TwoislessthanFive!")print("Fiveisgreaterthantwo!")错误:文件“/Users/____/Desktop/Pythonpractise/practise.py”,第3行print("五比二大!")Indentati......
  • 裁剪时间变量 Python Matplotlib Xarray
    我不确定这是否是一个愚蠢的问题,但我想按时间变量剪辑.nc文件。我在xarray中打开了数据集,但以下ds.sel行(之前已运行)仅返回错误。ds=xr.open_dataset('/Users/mia/Desktop/RMP/data/tracking/mcs_tracks_2015_11.nc')selected_days=ds.sel(time=slice('2015-11-22',......