学习链接:Python数据分析师入门
爬虫合法吗
机器人协议
-
robots.txt
- 协议中规定了哪些内容可以获取,哪些内容不能获取
- 通常协议中会标明哪些不让爬
baidu.com/robots.txt
taobao.com/robots.txt
君子协议
- 未标注是否可以爬取
- 历史上哪些工程师被抓
- 有一家公司被一锅端
- 工程师写了一个爬虫,采集另外一家公司网站数据,丝毫没有管网站死活
- 有一个工程师,写了一个爬虫给女朋友抢HPV疫苗,给别人抢,收费
- 有一家公司被一锅端
写爬虫的注意事项
- 给服务器留活路
- 爬虫开启后,用其他设备访问爬虫网站
- 脱离敏感数据
- 不要公开收费
- 不要爬国家的这种公共资源网站