爬虫到底是什么
概括
爬虫是批量化自动获取既有数据
- 批量化
- 自动
- 既有数据
通常
- 获取既有数据
特殊
- 批量注册一批账号
- 批量去领取优惠券
- 批量自动下单购物
- 自动做任务(签到)
实际应用
- 企业中:
- 竞品调研数据采集
- 办公自动化
- 个人:
- 比如看小说
- 有的网站收费
- 有的网站不收费,但是有广告
- 目标:不看广告不交钱
- 广告屏蔽插件
- 爬下来
- 比如说抢票、抢茅台、抢票...
- 比如看小说
爬虫分类
1. 聚焦爬虫
- 完成某一项特定数据的采集
- 百分之九十的爬虫
2. 通用爬虫
- 什么内容都采集,存储下来
- 搜索引擎
3. 增量爬虫
- 既可以使用聚焦爬虫,也可以使用通用爬虫
- 当内容变化时,可以爬取变化的内容
4. 暗网爬虫
- 深网爬虫
- 很少见
- 本身违法
爬虫合法吗
机器人协议
-
robots.txt
- 协议中规定了哪些内容可以获取,哪些内容不能获取
- 通常协议中会标明哪些不让爬
baidu.com/robots.txt
taobao.com/robots.txt
君子协议
- 未标注是否可以爬取
- 历史上哪些工程师被抓
- 有一家公司被一锅端
- 工程师写了一个爬虫,采集另外一家公司网站数据,丝毫没有管网站死活
- 有一个工程师,写了一个爬虫给女朋友抢HPV疫苗,给别人抢,收费
- 有一家公司被一锅端
写爬虫的注意事项
- 给服务器留活路
- 爬虫开启后,用其他设备访问爬虫网站
- 脱离敏感数据
- 不要公开收费
- 不要爬国家的这种公共资源网站
爬虫如何搞钱
-
入职企业,找一份爬虫工程师的岗位
-
抢购
- 最火的茅台
- 电商平台秒杀
-
羊毛出自猪身上
- 看小说(投放广告)
-
引流比价
- 购物助手
-
点赞、收藏、刷粉丝、刷评论、刷播放量
核心
- 资源的整合
链接地址:
标签:批量,python,爬虫,序言,网站,txt,数据 From: https://www.cnblogs.com/amanzhj/p/17592052.html