python数据分析师入门-学习笔记（爬虫-序言）

时间：2023-07-30 21:11:19浏览次数：43

标签：批量 python 爬虫序言网站 txt 数据

爬虫到底是什么

概括

爬虫是批量化自动获取既有数据

批量化
自动
既有数据

通常

获取既有数据

特殊

批量注册一批账号
批量去领取优惠券
批量自动下单购物
自动做任务（签到）

实际应用

企业中：
- 竞品调研数据采集
- 办公自动化
个人：
- 比如看小说
  - 有的网站收费
  - 有的网站不收费，但是有广告
  - 目标：不看广告不交钱
    - 广告屏蔽插件
    - 爬下来
- 比如说抢票、抢茅台、抢票...

爬虫分类

1. 聚焦爬虫

完成某一项特定数据的采集
百分之九十的爬虫

2. 通用爬虫

什么内容都采集，存储下来
搜索引擎

3. 增量爬虫

既可以使用聚焦爬虫，也可以使用通用爬虫
当内容变化时，可以爬取变化的内容

4. 暗网爬虫

深网爬虫
很少见
本身违法

爬虫合法吗

机器人协议

robots.txt
- 协议中规定了哪些内容可以获取，哪些内容不能获取
- 通常协议中会标明哪些不让爬
baidu.com/robots.txt
taobao.com/robots.txt

君子协议

未标注是否可以爬取
历史上哪些工程师被抓
- 有一家公司被一锅端
  - 工程师写了一个爬虫，采集另外一家公司网站数据，丝毫没有管网站死活
- 有一个工程师，写了一个爬虫给女朋友抢HPV疫苗，给别人抢，收费

写爬虫的注意事项

给服务器留活路
- 爬虫开启后，用其他设备访问爬虫网站
脱离敏感数据
不要公开收费
不要爬国家的这种公共资源网站

爬虫如何搞钱

入职企业，找一份爬虫工程师的岗位
抢购
- 最火的茅台
- 电商平台秒杀
羊毛出自猪身上
- 看小说（投放广告）
引流比价
- 购物助手
点赞、收藏、刷粉丝、刷评论、刷播放量

核心

资源的整合

链接地址：

标签：批量,python,爬虫,序言,网站,txt,数据
From： https://www.cnblogs.com/amanzhj/p/17592052.html

python爬虫基础
前言都说爬虫简介1、首先我们需要知道爬虫是什么？爬虫实际上是一段程序，我们可以通过这段程序从互联网上获取到我们想要的数据，这里还有另外一种解释是我们使用程序来模拟浏览器向服务器发送请求，来获取响应信息2、爬虫的核心：（1）、爬取网页：爬取整个网页，包含网页中的所有内容（2）、解......
opencv-python 卷积操作
1图像卷积图像卷积就是卷积核在图像上按行滑动遍历像素时不断的相乘求和的过程，卷积可以用来提取特征，去噪，平滑等。如下图： ......
opencv-python霍夫变换
1霍夫线检测原理霍夫变换常用来提取图像中的直线和圆等几何形状。在笛卡尔坐标系中，直线可以表示为y=kx+q 也就是说通过变量k,q可以确定一条直线，把直线写成关于k，q的函数，进行空间转换，转换后的空间称为霍夫空间。也就是说：笛卡尔坐标系中的一条线对应了霍夫空间的一个点。反过......
python argparse—用于命令行选项、参数和子命令的解析器
参考：https://docs.python.org/3/library/argparse.htmlargparse.ArgumentParser:创建Parser对象语法格式class argparse.ArgumentParser(prog=None, usage=None, description=None, epilog=None, parents=[], formatter_class=argparse.HelpFormatter, prefix_chars='-......
爬虫：动态渲染网页
#coding：utf-8importrequestsimportjsonurl='https://www.toutiao.com/search/suggest/hot_words/?_signature=_02B4Z6wo00101KzVDhQAAIDALNf0VpZzQrys8QqAAE.4WWTkOuz1HeMqTrJvEm2yLbAnK-d4x0dPsUEaw146LG7XljEYM0cn9I0bjErwG0PJkn2Kj0dDPMvau3aciANleL.uixoTY......
python的内置方法
类型判断issubclass首先，我们先看issubclass()这个内置函数可以帮我们判断x类是否是y类型的子类classBase:passclassFoo(Base):passclassBar(Foo):passprint(issubclass(Bar,Foo))#Trueprint(issubclass(Foo,Bar))#False......
Python报错 | xlrd.biffh.XLRDError Excel xlsx file; not supported
报错信息Python加载xlsx文件时，遇到：xlrd.biffh.XLRDErrorExcelxlsxfile;notsupported错误原因报错翻译过来是：xlrd.biffh.xlrd错误：Excelxlsx文件；不受支持解决方案方法1：安装指定低版本的xlrd，执行下面的pip安装命令即可：pipinstallxlrd==1.2.0方法2：Excel另存为......
python数据分析师入门-学习笔记（第十节数据获取）
工具使用Anaconda官网下载安装一路next(默认就行)Chrome默认安装就行打开jupyternotebook打开anacondaprompt输入jupyternotebook系统自动打开一个网页快手掌握开发工具模式：代码模式markdown模式快捷键h查看所有快捷键esc编辑状态切换......
python数据分析师入门-学习笔记（第九节爬虫的核心流程）
学习链接：Python数据分析师入门爬虫的核心流程明确目标汽车成交量汽车评论信息汽车提车分享信息搜寻哪些网站或APP有我们要的资源汽车之家懂车帝易车分析数据所在位置，加载方式直接加载的额外的网络请求数据获取使用代码驱动APP或浏览器自己分析请求......
爬虫、正则
......

python数据分析师入门-学习笔记（爬虫-序言）

爬虫到底是什么

概括

爬虫是批量化自动获取既有数据

通常

特殊

实际应用

爬虫分类

1. 聚焦爬虫

2. 通用爬虫

3. 增量爬虫

4. 暗网爬虫

爬虫合法吗

机器人协议

君子协议

写爬虫的注意事项

爬虫如何搞钱

核心

相关文章

赞助商

阅读排行