01爬虫简介
1.jupyter安装与打开
简介:jupyter是一个交互式笔记本,是一个基于web页面的开发工具,集成了数据分析和机器学习开发环境。
用途: 学习、笔记共享,探索,开发数据分析和机器学习。
1.1.安装
pip3 install jupyter
1.2.运行
在指定目录运行命令
python3 -m jupyter notebook
2.爬 虫 相 关 概 念
-
爬 虫 : 就 是 通 过 编 写 程 序 , 让 其 模 拟 浏 览 器 上 网 , 然 后 去 互 联 网 上 抓 取 数 据 的 过 程
模 拟 : 浏 览 器 就 是 一 款 天 然 的 爬 虫 工 具 !
抓 取 : 抓 取数 据
-
爬 虫 的 分 类 :
通 用 爬 虫 : ( 数 据 的 爬 取 )抓 取 一 整 张 页 面 源 码 数 据
聚 焦 爬 虫 : ( 数 据 解 析 )抓 取 局 部 的 指 定 的 数 据 。 是 建 立 在 通 用 爬 虫 基 础 之 上 的 !
增 量 式 爬 虫 : ( 数 据 的 更 新 )监 测 网 站 数 据 更 新 的 情 况 ! 抓 取 网 站 最 新 更 新 出 来 的 数 据 !
-
反爬 机 制
一 些 网 站 后 台 会 设 定 相 关 的 机 制 阻 止 爬 虫 程 序 进 行 数 据 的 爬 取 , 这 些 机 制 就 是 网 站 设 定 的 反 爬 策 略
-
反 反 爬 策 略
爬 虫 需 要 制 定 相 关 的 策 略 破 解 反 爬 机 制 , 从 而 可 以 爬 取 到 网 站 的 数 据
-
反 爬 协 议
robots 协 议 : 存 在 于 网 站 服 务 器 的 一 个 文 本 协 议 。 指 明 了 该 网 站 中 哪 些 数 据 可 以 爬 取 哪 些 不
可 以 爬 取 。
特 点 : 防 君 子 不 防 小 人 。