首页 > 其他分享 >01爬虫简介

01爬虫简介

时间:2022-10-05 23:00:06浏览次数:44  
标签:数据分析 01 jupyter 简介 爬虫 学习

01爬虫简介

1.jupyter安装与打开

简介:jupyter是一个交互式笔记本,是一个基于web页面的开发工具,集成了数据分析和机器学习开发环境。

用途: 学习、笔记共享,探索,开发数据分析和机器学习。

1.1.安装

pip3 install jupyter

1.2.运行

在指定目录运行命令

python3 -m jupyter notebook

2.爬 虫 相 关 概 念

  • 爬 虫 : 就 是 通 过 编 写 程 序 , 让 其 模 拟 浏 览 器 上 网 , 然 后 去 互 联 网 上 抓 取 数 据 的 过 程

    模 拟 : 浏 览 器 就 是 一 款 天 然 的 爬 虫 工 具 !

    抓 取 : 抓 取数 据

  • 爬 虫 的 分 类 :

    通 用 爬 虫 : ( 数 据 的 爬 取 )抓 取 一 整 张 页 面 源 码 数 据

    聚 焦 爬 虫 : ( 数 据 解 析 )抓 取 局 部 的 指 定 的 数 据 。 是 建 立 在 通 用 爬 虫 基 础 之 上 的 !

    增 量 式 爬 虫 : ( 数 据 的 更 新 )监 测 网 站 数 据 更 新 的 情 况 ! 抓 取 网 站 最 新 更 新 出 来 的 数 据 !

  • 反爬 机 制

    一 些 网 站 后 台 会 设 定 相 关 的 机 制 阻 止 爬 虫 程 序 进 行 数 据 的 爬 取 , 这 些 机 制 就 是 网 站 设 定 的 反 爬 策 略

  • 反 反 爬 策 略

    爬 虫 需 要 制 定 相 关 的 策 略 破 解 反 爬 机 制 , 从 而 可 以 爬 取 到 网 站 的 数 据

  • 反 爬 协 议

    robots 协 议 : 存 在 于 网 站 服 务 器 的 一 个 文 本 协 议 。 指 明 了 该 网 站 中 哪 些 数 据 可 以 爬 取 哪 些 不
    可 以 爬 取 。
    特 点 : 防 君 子 不 防 小 人 。

标签:数据分析,01,jupyter,简介,爬虫,学习
From: https://www.cnblogs.com/chenzhi2023/p/16756699.html

相关文章

  • ES01--介绍与安装
    一ES介绍#Elasticsearch产生背景-大数据量如何存储和检索#补充:-NoSql:notonlysql,泛指非关系型的数据库-Nginx的7层负载均衡和4层负载均衡......
  • SpringBoot简介入门
                   ......
  • AGC001
    第一次尝试AGC。A(最优化、贪心)排序之后隔一个选一个即可。B(递推)定义\(f(a,b)\)表示底为\(b\)腰为\(a\)的等腰梯形从右上角开始的答案,可以在\(f(a,b)\)和\(f(......
  • day05多表查询01
    多表查询前面讲过的基本查询都是对一张表进行查询,但在实际的开发中远远不够。下面使用表emp,dept,salgrade进行多表查询emp:dept:salgrade:1.前置-mysql表查询-加强1.......
  • 「POI2013」Multidrink
    题目点这里看题目。给定一棵包含\(n\)个结点的树。构造一个\(1\simn\)的排列\(p_1,p_2,\dots,p_n\),满足:\(p_1=1,p_n=n\)。对于任意的\(1\lek<n\),\(p_k\)......
  • *洛谷 P1018 [NOIP2000 提高组] 乘积最大(dfs+高精度)
    说在前头此篇题解是记录自己的暴力写法,并不能100分满分通过洛谷测试数据(只有60)纯纯记录写法而写https://www.luogu.com.cn/problem/P1018我还说这么简单呢这题,想太......
  • luogu P3571 [POI2014]SUP-Supercomputer
    题面传送门感觉考场上不一定做得出来的题目?首先我们可以得到每个点的深度,然后猜测这个只和每个层的深度有关。我们考虑这样一个贪心:对于每一层的每个点,如果这个点有子节......
  • P1901 发射站
    \(O(n)\)#include<bits/stdc++.h>usingnamespacestd;intn;intq[1000001];intf[1000001];inta[1000001];intb[1000001];inthead,tail;intmain(){ cin>>......
  • 01背包问题
    问题描述01背包问题有\(N\)件物品和一个容量是\(V\)的背包,每件物品只能使用一次。第\(i\)件物品的体积是\(v_i\),价值是\(w_i\),求解将哪些物品装入背包,可使这些物品总体......
  • luogu P3822 [NOI2017] 整数
    Link题解这里有一个很傻逼的无脑做法:https://www.luogu.com.cn/blog/80614/solution-p3822正常的正解做法是考虑用线段树维护每一位是什么,然后将\(a\)拆成二进制位,对......