在 Google Colab 中运行 Selenium WebDriver
如果您需要在 Google Colab 中为您的分析项目抓取数据,则无需事先构建单独的网络抓取工具。
与其将 Google Colab 视为 Ipython Notebook,不如将其视为一个成熟的计算单元。您不仅可以执行 Python 代码、HTML 或 LaTeX,还可以在 Colab 中执行 Bash 命令。这反过来又使我们能够在 Colab 中安装 Selenium 和 WebDriver。
好的,但我为什么需要它?
在另一个计算单元上部署网络爬虫 释放您的本地计算机计算资源和互联网连接 .如果你跑 Selenium 多线程 ,有时由于后台运行的并发实例数量,程序可能会占用千兆字节的 RAM。如果您使用较旧的机器或没有足够的 RAM,则使用云上的计算单元可以为您提供很大帮助。此外,您现在可以使用您的机器完成另一项任务,同时等待网络抓取工具完成其工作。
Colab 还使用 Google 的互联网连接来运行请求和获取数据。这意味着您不必花费自己的带宽来获取所有成千上万的 HTML 页面、CSS 样式表和 JS 脚本。如果您在偏远的地方并且没有非常可靠的互联网连接,这将特别有用。但是,如果您这样做,此技术会释放您的带宽,并让您完成 Warzone 的 100GB 更新……或任何其他需要您分享带宽的任务。
最重要的是,Colab 是免费的。没有什么能打败它。
这个怎么运作
让我们从使用开始 易于
& PIP 通过编写下面的代码来安装 Selenium 和 WebDriver。请注意,这三个命令前面是 !
因为之后出现的任何东西 !
on a line 将由系统命令行执行。
Code for installing Selenium and WebDriver in Colab.
一切都安装好后,在 Colab 中一切照旧。就像在本地机器上一样编写 Selenium 代码。让我们通过抓取印度尼西亚最大的电子商务网站之一 Tokopedia.com 的页面源来测试一下。
首先,让我们使用正确的选项设置 WebDriver。下面的代码将 WebDriver 设置为无头模式,同时也使其不同于人工操作的浏览器。这些设置来自这个 博文 来自 webscraping.pro 的 Igor Savinkin,他提出了一个绝妙的主意,即针对人工操作和自动浏览器测试参数和设置,看看指纹程序是否可以区分两者。
Driver setup options for Selenium.
并编写一些代码来返回页面源。
A small code that returns a page source.
现在,如果我们尝试运行代码..
Selenium successfully returns HTML of Tokopedia. Actually there is no need to prettify the source like I do.
瞧!我们得到 HTML。容易,对吧?