首页 > 其他分享 >爬虫就应该这样学

爬虫就应该这样学

时间:2023-01-17 10:01:19浏览次数:39  
标签:爬取 Python 爬虫 学习 使用 应该 数据 这样

新人如何学习 Python 爬虫其实也很简单,根据之前学习的步伐,大体上分为四个阶段,这也是我学习爬虫的一些心得,下面我就将我详细学习 Python 爬虫所制定的学习路线分享给大家吧。

爬虫就应该这样学_Python

第一阶段:夯实

入门要就是在打基础,所以要从最基础的库学起。下面是几个库是入门最经典的库。

1、urllib

它属于 Python 标准库。该库的作用是请求网页并下载数据。在学习该库之前,最好把 HTTP 协议了解下。这会大大提高后面的学习效率。

先学会如何使用 urllib 请求到数据,再学习一些高级用法。例如:

设置 Headers: 某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。设置 Headers 可以把请求伪装成浏览器访问网站。

Proxy 的设置: 某些站点做了反倒链的设置,会将高频繁访问的 IP 地址封掉。所以我们需要用到代理池。

错误解析:根据 URLError 与 HTTPError 返回的错误码进行解析。

Cookie 的使用:可以模拟网站登录,需要结合 cookielib 一起使用。

2、re

re 是正则表达式库。同时也是 Python 标准库之一。它的作用是匹配我们需要爬取的内容。所以我们需要掌握正则表达式常用符号以及常用方法的用法。

3、BeautifulSoup

BeautifulSoup 是解析网页的一款神器。它可以从 HTML 或者 XML 文件中提取数据。配合 urllib 可以编写出各种小巧精干的爬虫脚本。

第二阶段:进阶

当把基础打牢固之后,我们需要更进一步学习。使用更加完善的库来提高爬取效率

1、使用多线程

使用多线程抓取数据,提高爬取数据效率。

2、学习 Requests

Requests 作为 urlilb 的替代品。它是更加人性化、更加成熟的第三方库。使用 Requests 来处理各种类型的请求,重复抓取问题、cookies 跟随问题、多线程多进程、多节点抓取、抓取调度、资源压缩等一系列问题。

3、学习 Xpath

Xpath 也算是一款神器。它是一款高效的、表达清晰简单的分析语言。掌握它以后介意弃用正则表达式了。一般是使用浏览器的开发者工具 加 lxml 库。

4、学习 Selenium

使用 Selenium,模拟浏览器提交类似用户的操作,处理js动态产生的网页。因为一些网站的数据是动态加载的。类似这样的网站,当你使用鼠标往下滚动时,会自动加载新的网站。

第三阶段:突破

1、学习 Scrapy

Scrapy 是一个功能非常强大的分布式爬虫框架。我们学会它,就可以不用重复造轮子。

2、数据存储

如果爬取的数据条数较多,我们可以考虑将其存储到数据库中。因此,我们需要学会 MySqlMongoDB、SqlLite的用法。更加深入的,可以学习数据库的查询优化。

第四阶段:为我所用

当爬虫完成工作,我们已经拿到数据。我们可以利用这些数据做数据分析、数据可视化、做创业项目原始启动数据等。

我们可以学习 NumPy、Pandas、 Matplotlib 这三个库。

NumPy :它是高性能科学计算和数据分析的基础包。

Pandas : 基于 NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。它可以算得上作弊工具。

Matplotlib:Python中最著名的绘图系统Python中最著名的绘图系统。它可以制作出散点图,折线图,条形图,直方图,饼状图,箱形图散点图,折线图,条形图,直方图,饼状图,箱形图等。

标签:爬取,Python,爬虫,学习,使用,应该,数据,这样
From: https://blog.51cto.com/u_13488918/6011947

相关文章

  • 给你避坑 这样子继承的话 这个类的构造方法 没包括继承父类的那些属性
     给你避坑这样子继承的话这个类的构造方法 没包括继承父类的那些属性,此时得重写构造方法    ......
  • 夸克突然火了,很抱歉,以这样的方式认识你
    早上上班,突然看到上个月写的一篇关于浏览器的文章爆了。分析了一下为什么这两天突然就爆文了,原来是因为标题有夸克这两个字,而最美警花张津瑜的视频,就是让这个浏览器火爆全......
  • 【MySQL思考】触发器是否应该在生产环境中使用?
    [1]触发器简单介绍  MySQL触发器​​trigger​​​是一种存储程序,它和一个指定的表相关联,当该表中的数据发生变化(增加、更新、删除)时自动执行。这些修改数据行的操作......
  • MATLAB爬虫爬取股票数据
    Matlab也可以爬取网络数据~近年来,大数据盛行,有关爬虫的教程层次不穷。那么,爬虫到底是什么呢?什么是爬虫?百度百科是这样定义的:网络爬虫(又被称为网页​​蜘蛛​​​,网络机......
  • 盘点爬虫IP代理使用的常见问题及解决思路
    在使用爬虫IP代理过程中经常会遇到一些奇奇怪怪的问题,常见的可能就是超时、访问速度慢,今天跟随​​神龙HTTP​​来跟大家探讨下哪些情况下容易出现这种问题,以及如何测试并解......
  • python爬虫电影数据抓取实战
    想要了解最近电影院播放的都有什么影视电影,哪部值得推荐,如果单纯靠手动收搜不全面,下面我们就先使用urllib.request模块抓取整个网页,再使用re模块获取电影信息,做个简单的爬虫......
  • 学习python 爬虫之pyppteer
    1、安装pyppteer库 pipinstallpyppteer 如果安装出错,使用国内镜像安装 pipinstallpyppeteer-ihttps://pypi.douban.com/simple2、下载chromium浏览......
  • 尝试python 爬虫新工具playwright
    1、安装playwright库pipinstallplaywright 2、安装浏览器驱动文件(安装过程稍微有点慢)python-mplaywrightinstall......
  • Python爬虫-第四章-1-多线程多进程并发爬取Ⅰ
    多线程多进程用的方式#DemoDescribe:多线程写法fromthreadingimportThread#线程frommultiprocessingimportProcess#进程#start--------1,多线程调用的方式一......
  • Python爬虫-第四章-1-多线程多进程并发爬取Ⅱ
    线程池使用案例:一次性开辟一些线程,用户直接给线程池提交任务,线程任务的调度交给线程池#DemoDescribe:线程池和进程池fromconcurrent.futuresimportThreadPoolExecutor,......