首页 > 编程问答 >我正在遵循使用 selenium 在网站上抓取图像的教程,但代码无法运行

我正在遵循使用 selenium 在网站上抓取图像的教程,但代码无法运行

时间:2024-07-26 06:04:39浏览次数:6  
标签:python selenium-webdriver web-scraping selenium-chromedriver

我正在尝试编辑代码以 保存验证码 ,希望最终编写一个自动化机器人。以下 python 代码会导致随后的错误。

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
import urllib
import time
import os

path = "C:/Users/micha/Documents/PythonProgramming/IG"
gifname = "captcha"
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(options=chrome_options)
# Create url variable containing the webpage for a Google image search.
url = ("https://www.infamousgangsters.com/site.php?page=bulletfactory")
# Find the images.
imgResults = driver.find_elements(By.XPATH,"/html/body/div/table/tbody/tr/td/table/tbody/tr/td[2]/div[@class='spacer']/table[2]/tbody/tr/td[@class='bodymain']/div[2]/form/img/@src")
# Access and store the scr list of image url's.
src = []
for img in imgResults:
    src.append(img.get_attribute('src'))
# Retrieve and download the images.
for i in range(len(src)):    urllib.request.urlretrieve(str(src[i]),"sample_data/captchas{}.gif".format(i))
with open(os.path.join(path, gifname), 'wb') as f:
    driver.close()

任何帮助或建议将不胜感激。


你的代码中出现的错误是因为 find_elements 方法预计 XPath 表达式应返回 WebElement 元素的集合,而你的表达式 //html/body/div/table/tbody/tr/td/table/tbody/tr/td[2]/div[@class='spacer']/table[2]/tbody/tr/td[@class='bodymain']/div[2]/form/img/@src 却被设计为提取 src 属性,而这实际上会返回一个字符串。

此外,你试图以错误的方式打开文件来保存验证码。你应该打开文件来保存每个单独的验证码图像,而不是打开一个文件( captcha )来写入所有验证码。

以下是更新后的代码,它应该能够正常工作:

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
import urllib
import time
import os

path = "C:/Users/micha/Documents/PythonProgramming/IG"
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(options=chrome_options)
# Create url variable containing the webpage for a Google image search.
url = ("https://www.infamousgangsters.com/site.php?page=bulletfactory")
driver.get(url)
# Find the images.
imgResult = driver.find_element(By.XPATH,"//html/body/div/table/tbody/tr/td/table/tbody/tr/td[2]/div[@class='spacer']/table[2]/tbody/tr/td[@class='bodymain']/div[2]/form/img")
# Access and store the scr list of image url's.
src = imgResult.get_attribute('src')
# Retrieve and download the images.
urllib.request.urlretrieve(str(src),"{}/captcha.gif".format(path))
driver.close()

此代码执行以下操作:

  1. 查找验证码图像: 它使用 XPath 表达式 //html/body/div/table/tbody/tr/td/table/tbody/tr/td[2]/div[@class='spacer']/table[2]/tbody/tr/td[@class='bodymain']/div[2]/form/img 查找验证码图像,然后使用 find_element (而不是 find_elements )来获取单个 WebElement。
  2. 获取图像的 src 属性: 它使用 get_attribute('src') 获取图像 URL。
  3. 保存图像: 它使用 urllib.request.urlretrieve 保存图像。在这种情况下,它会将图像保存为 captcha.gif 文件夹中 path

注意: 此代码假设页面上只有一个验证码。如果有多个验证码,则需要更新代码以查找和保存所有验证码。

标签:python,selenium-webdriver,web-scraping,selenium-chromedriver
From: 78794340

相关文章

  • 84 我正在使用 Python 开发 selenium 自动化项目。我收到错误 .NoSuchElementExceptio
    场景是这样的,我将打开一个网页,在使用selenium单击该网页后,它会要求位置访问权限,屏幕上会出现一堆按钮,我正在尝试定位其中一个按钮,但即使正确给出了Xpath地址,我得到.NoSuchElementException:错误能够单击目标按钮你正在使用Selenium在Python中开发自动化项目,并遇到......
  • 在Python 3中删除两个指定字符串之间的字符串
    我正在从事一个NLP项目,该项目要求我从一段文本中删除计算机代码。代码包含在标签<pre><code>和</code></pre>之间。现在我可以做一个简单的正则表达式匹配,但我想概括这个函数,以便它可以删除任何两个指定字符串之间的文本,即使它们是嵌套的。例如,如果我有一个......
  • Azure Open AI - Python 和 Java API 之间 gpt4o 的结果截然不同
    我使用Java和PythonAPI对AzureOpenAI进行相同的调用,但收到截然不同的结果:相同的系统提示相同的用户提示适用于Java和Python的azureai包的相同(最新)版本尽管输入的用户和系统提示完全相同,但响应却非常不同-python提示是“正确的”并......
  • leetcode 输出错误? (Python)
    我的VSCode/本地终端给出了[1,4,1,5,1,6]的正确输出,但不知何故leetcode给了我完全不同的输出。我在这里错过了什么吗?这怎么可能?顺便说一下,这是wigglesort2将我的本地代码复制粘贴到leetcode中给出了不同的输出数组很难在没有看到你的代码的情况下......
  • 当 python 窗口的一部分不在屏幕上时,如何让它自己被记录?
    在Windows10中,大多数应用程序窗口都可以使用OBS等程序进行记录。当窗口被拖动以致其部分内容在显示屏上不可见时,通常OBS仍会接收窗口的内容,即使它在屏幕上不可见。但是,在编写python应用程序时,这似乎不以相同的方式工作。我尝试了几种不同的类似GUI的模块......
  • 使用 aws cdk 设置用户池客户端属性以具有读/写访问权限 - Python
    我试图根据属性给予一些自定义属性特定的读/写访问权限。我收到此错误。资源处理程序返回消息:“无效写入创建客户端时指定的属性(服务:CognitoIdentityProvider,状态代码:400,请求ID:<request_id>)”(RequestToken:<request_token>,HandlerErrorCode:InvalidRequest)任何人都可以为......
  • 试图找出此页面的逻辑:存储了大约 ++ 100 个结果 - 并使用 Python 和 BS4 进行了解析
    试图找出此页面背后的逻辑:我们已将一些结果存储在以下数据库中:https://www.raiffeisen.ch/rch/de/ueber-uns/raiffeisen-gruppe/Organization/raiffeisenbanken/deutsche-schweiz.html#accordionitem_18104049731620873397从a到z大约:120个结果或更多:......
  • 如何在 Numpy Python 中将 4 维数组的下三角形复制到上三角形?
    目标是将下三角形复制到上三角形。根据OP中提出的建议,起草了以下代码。importnumpyasnplw_up_pair=np.tril_indices(4,-1)arr=np.zeros((4,4,1,1))arr[1,:1,:,0]=1arr[2,:2,0,0]=2arr[3,:3,0,0]=3arr=arr+arr.T-np.diag(np.diag(arr))但是,它......
  • 如何在 Python 中对多行使用单个 INSERT INTO 语句?
    我目前正在开发一个DiscordPython机器人,我在其中循环遍历ForumTags列表,并为每个对象生成INSERTINTOSQL语句以将数据插入MySQL数据库。但是,我想要通过将所有这些单独的INSERTINTO语句组合到单个查询中来优化我的代码,如下所示:INSERTINTO......
  • 双 for 循环的 Pythonic 方式
    我有以下代码:importnumpyasnpepsilon=np.array([[0.,0.00172667,0.00071437,0.00091779,0.00154501],[0.00128983,0.,0.00028139,0.00215905,0.00094862],[0.00035811,0.00018714,0.,0.00029365,0.00036993......