目录
爬虫的定义
爬虫就是一个程序,程序运行完成之后,就能够拿到你想要获取的数据。
爬虫的奥义就是
程序模拟浏览器
。
爬虫的核心
爬虫的难点在于:
解析数据。
爬虫的用途
社交类
:陌陌一开始爬微博数据当假的用户。
电商类
:电商网站互相监控,互相降价。
出行类
:智行、飞猪高频次访问12306,购票软件都访问它,出行类占比很大。
政府部门
:中国天气网。
爬虫的分类
反爬手段
第一个反爬手段:User-Agent校验
第二个反爬手段:访问一个网站,有异与人类的行为,它会封禁你的IP。
第三个反爬手段:验证码
第四个反爬手段:返回JS数据,不是网页真实数据
第五个反爬手段:数据加密(比如字体加密)
标签:反爬,爬虫,概念,手段,电商,数据,052 From: https://www.cnblogs.com/gnuzsx/p/18014021