想必大家都了解爬虫,也就是爬取网页你所需要的信息
相比于网页繁多的爬虫教程,本篇主要将爬虫分为三个部分,以便你清楚,代码的功能以及使用,这三部分分别为
1.获取到源代码
2.根据网页中的标签特征,获取源代码你所需要的部分
3.想一下如何根据页面的逻辑将一系列的网页自动化抓取
接下来说一下每一步的操作
1.获取源代码
现在有很多库来获取,不过现在普遍使用的是requests,我也是用它
导入方式为
import requests
这一部分很简单就一行代码
response = requests.get(url, params = params , headers = headers)
url就是页面的url,网址
params就是查询参数,可选
headers就是页面的请求头,也是可选,不过现在可以必过简易的反爬,主要要有user_agent和cookies
2.根据网页特征获取
这里我用到了BeautifulSoup
导入方式为
from bs4 import BeautifulSoup
具体使用就是
soup = BeautifulSoup(directory, 'html.parser')
其中'html.parser',它是 Python 内置的解析器,用于解析普通的 HTML 文档。
作用为:首先将html 变量中的 HTML 内容解析为一个 BeautifulSoup 对象 soup,使得后续可以利用 BeautifulSoup 提供的方法来方便地遍历和操作 HTML 文档的各个部分。
至于筛选标签,我主要我是使用了BeautifulSoup中的find和find_all两个函数,是用于查找符合指定标签名和属性条件的元素,这两个函数是有一定的区别的。
find用于查找文档中符合指定条件的第一个元素
find_all用于查找文档中符合条件的所有元素,并返回一个列表
举个例子
first_span = soup.find('span', class_='fl')
这里用find方法查找了第一个 标签,且其 class 属性为 'fl'。
span_list = soup.find_all('span', class_='fl')
这里用find_all 方法查找了所有 标签,且其 class 属性为 'fl' 的元素,将它们存储在 span_list 列表中。
3.自动化抓取
如一些页面的选择上
https://www.xxx.html?p=s
这就是爬虫简易思路,希望对你们有帮助
标签:span,soup,class,BeautifulSoup,爬虫,说明,简易,find From: https://www.cnblogs.com/l-xx123/p/18345876