首页 > 其他分享 >在 Google Colab 中运行 Selenium WebDriver

在 Google Colab 中运行 Selenium WebDriver

时间:2022-08-29 17:02:45浏览次数:87  
标签:WebDriver Google Selenium 抓取 Colab 运行

在 Google Colab 中运行 Selenium WebDriver

Photo by 克里斯·里德 on 不飞溅

如果您需要在 Google Colab 中为您的分析项目抓取数据,则无需事先构建单独的网络抓取工具。

与其将 Google Colab 视为 Ipython Notebook,不如将其视为一个成熟的计算单元。您不仅可以执行 Python 代码、HTML 或 LaTeX,还可以在 Colab 中执行 Bash 命令。这反过来又使我们能够在 Colab 中安装 Selenium 和 WebDriver。

好的,但我为什么需要它?

在另一个计算单元上部署网络爬虫 释放您的本地计算机计算资源和互联网连接 .如果你跑 Selenium 多线程 ,有时由于后台运行的并发实例数量,程序可能会占用千兆字节的 RAM。如果您使用较旧的机器或没有足够的 RAM,则使用云上的计算单元可以为您提供很大帮助。此外,您现在可以使用您的机器完成另一项任务,同时等待网络抓取工具完成其工作。

Colab 还使用 Google 的互联网连接来运行请求和获取数据。这意味着您不必花费自己的带宽来获取所有成千上万的 HTML 页面、CSS 样式表和 JS 脚本。如果您在偏远的地方并且没有非常可靠的互联网连接,这将特别有用。但是,如果您这样做,此技术会释放您的带宽,并让您完成 Warzone 的 100GB 更新……或任何其他需要您分享带宽的任务。

最重要的是,Colab 是免费的。没有什么能打败它。

这个怎么运作

让我们从使用开始 易于 & PIP 通过编写下面的代码来安装 Selenium 和 WebDriver。请注意,这三个命令前面是 因为之后出现的任何东西 on a line 将由系统命令行执行。

Code for installing Selenium and WebDriver in Colab.

一切都安装好后,在 Colab 中一切照旧。就像在本地机器上一样编写 Selenium 代码。让我们通过抓取印度尼西亚最大的电子商务网站之一 Tokopedia.com 的页面源来测试一下。

首先,让我们使用正确的选项设置 WebDriver。下面的代码将 WebDriver 设置为无头模式,同时也使其不同于人工操作的浏览器。这些设置来自这个 博文 来自 webscraping.pro 的 Igor Savinkin,他提出了一个绝妙的主意,即针对人工操作和自动浏览器测试参数和设置,看看指纹程序是否可以区分两者。

Driver setup options for Selenium.

并编写一些代码来返回页面源。

A small code that returns a page source.

现在,如果我们尝试运行代码..

Selenium successfully returns HTML of Tokopedia. Actually there is no need to prettify the source like I do.

瞧!我们得到 HTML。容易,对吧?

等等,我仍然无法运行 Selenium!

标签:WebDriver,Google,Selenium,抓取,Colab,运行
From: https://www.cnblogs.com/amboke/p/16636497.html

相关文章

  • [Google] LeetCode 2128 Remove All Ones With Row and Column Flips
    Youaregivenanmxnbinarymatrixgrid.Inoneoperation,youcanchooseanyroworcolumnandflipeachvalueinthatroworcolumn(i.e.,changingall0's......
  • googletest总结
    目录前言googletest简介参考前言使用常用的googletest脚本,编写出易用的,可维护的业务代码贯穿TDD的思想。googletest简介参考googletestusergide......
  • Google C++ Style Guide 学习
    目录参考参考http://home.ustc.edu.cn/~hqp/RootClass/AddFiles2/GoogleC++StyleGuide.pdfhttps://zh-google-styleguide.readthedocs.io/en/latest/google-cpp-styl......
  • [Google] LeetCode 359 Logger Rate Limiter
    Designaloggersystemthatreceivesastreamofmessagesalongwiththeirtimestamps.Eachuniquemessageshouldonlybeprintedatmostevery10seconds(i.e......
  • Python Selenium使用cookie实现自动登录微博
    @目录前言一、预登陆获取cookie1)cookie处理2)预登陆二、登录测试前言模拟登录微博是实现微博网页爬虫的第一步,现在的微博网页版有个sinavisitsystem,只有登录过后才......
  • selenium使用cookie登录百度网页
    1.首先我们先来了解下cookie的几种方法get_cookies():获取所有cookie值get_cookie(name):根据cookie的name值获取对应的value值get_all_cookies:删除所有cookieget_delete......
  • Google Web Toolkit (GWT) 说明-基本上没有人用了
    GoogleWebToolkit(GWT)是用于构建和优化复杂的基于浏览器的应用程序的开发工具包。Google的许多产品都使用GWT,包括GoogleAdWords和Orkut。GWT是一个开源的、......
  • Selenium自动化测试_元素定位
    Selenium提供了8个元素定位的API,可以分为三种:1.标签定位策略2.属性定位策略3.通用定位策略find_element用来定位单个元素find_elements用来定位多个元素1.标签定......
  • Selenium自动化测试_实例
    一、简单的例子业务步骤:1.访问项目首页:http://101.34.221.219:8010/2.选择登录按钮:a.text='登录'3.点击登录按钮:a.click()4.定位账号输入框xpath='/ht......
  • selenium元素定位和常见操作
    selenium元素定位和常见操作一、selenium的元素定位:name定位,id定位,class定位,标签定位,链接文本定位,部分链接文本定位,xpath定位,css定位在进行元素定位前,先要安装selenium......