Python 库概览
例行寒暄之后,查老四就开始授课了
老猫:请大致介绍一下 Python 库
查老四:Python库是一组预先编写好的模块或函数,它们可以实现特定功能或解决特定问题。Python有许多库,它们覆盖了各种不同的领域和应用。以下是一些常用Python库的简要介绍:
- NumPy:一个用于处理数组和矩阵运算的库。广泛应用于科学计算、数据分析和机器学习领域。
- Pandas:一个强大的数据分析和数据处理库。提供了DataFrame数据结构,方便进行数据清洗、筛选、排序等操作。
- Requests:一个用于发送HTTP请求的库。可以方便地发起GET、POST等请求,获取或提交数据。
- Matplotlib:一个用于创建二维图形和图像的库。可以绘制折线图、柱状图、饼图等多种图形。
- Seaborn:基于Matplotlib的数据可视化库,提供了更高级的统计图形和更美观的图形样式。
- Scikit-learn:一个用于机器学习的库。提供了许多常用的机器学习算法,如线性回归、决策树、聚类等。
- TensorFlow:Google开发的一个开源机器学习框架。可以用于构建神经网络、深度学习模型等。
- Keras:一个用于构建和训练神经网络的高级库。它可以作为TensorFlow的一个接口,简化神经网络的搭建和训练过程。
- Flask:一个轻量级的Web应用框架。可以快速构建简单的Web应用程序。
- Django:一个功能齐全的Web应用框架。提供了许多内置功能,如数据库访问、表单处理、用户认证等。
- Beautiful Soup:一个用于解析HTML和XML文档的库。可以方便地提取和操作网页中的数据。
- Scrapy:一个强大的网络爬虫框架。可以编写爬虫程序,自动抓取和提取网络上的数据。
以上仅是Python众多库中的一部分。Python的生态非常丰富,有许多其他优秀的库可以解决各种问题。根据您的需求和兴趣,您可以进一步探索这些库,以提高您的编程能力和解决实际问题的能力。
老猫:请高度概括地说,这些库一般怎么用,比如说如何安装导入,是不是还有什么使用上的前提条件?
查老四:高度概括地说,这些库的使用包括以下几个步骤:
- 安装库:在Python中,通常使用pip工具来安装库。您只需在命令行或终端中输入类似以下命令即可安装库:
pip install library_name
例如,要安装NumPy库,您可以输入:
pip install numpy
如果您使用的是Anaconda发行版的Python,可以使用conda工具安装库:
conda install library_name
- 导入库:在Python代码中,使用
import
语句来导入已安装的库。例如,要导入NumPy库,您可以输入:
import numpy as np
- 使用库:根据库的功能和文档,调用库中的函数、类或方法来实现所需功能
关于使用库的前提条件:
- 首先,确保您已经正确安装了库。如果在尝试导入库时出现错误,可能是库未安装或安装有问题。
- 其次,确保您使用的Python版本与库兼容。某些库可能仅支持特定版本的Python。您可以在库的文档中查找相关信息。
- 最后,熟悉库的使用方法。阅读库的官方文档,了解库的功能、函数、类等,这将有助于您更高效地使用库。
当您对库有了基本了解后,可以通过实践不断熟练掌握它们,以解决实际问题。
老猫:哪里可以查到这些库有关的更多的使用信息呢
查老四:要查找这些库的更多使用信息,您可以参考以下资源:
- 官方文档:每个库通常都有详细的官方文档,这是了解库的最佳资源。官方文档通常包含库的安装方法、功能概述、API参考、示例代码等。以下是一些常用库的官方文档链接:
- NumPy:https://numpy.org/doc/
- Pandas:https://pandas.pydata.org/pandas-docs/stable/
- Requests:https://docs.python-requests.org/en/latest/
- Matplotlib:https://matplotlib.org/stable/contents.html
- Seaborn:https://seaborn.pydata.org/
- Scikit-learn:https://scikit-learn.org/stable/user_guide.html
- TensorFlow:https://www.tensorflow.org/guide
- Keras:https://keras.io/
- Flask:https://flask.palletsprojects.com/en/2.1.x/
- Django:https://docs.djangoproject.com/en/4.1/
- Beautiful Soup:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- Scrapy:https://docs.scrapy.org/en/latest/
- 在线教程和课程:许多网站和平台提供了关于Python库的教程和课程,如W3Schools、Real Python、GeeksforGeeks、Coursera、Udemy等。这些教程和课程通常会以实际示例为导向,帮助您更快地掌握库的使用方法。
- 社区支持:Python社区非常活跃,有许多论坛和问答网站,如Stack Overflow、Reddit等。如果您在使用库时遇到问题,可以在这些网站上查找相关问题和答案,或向社区提问以获取帮助。
- 书籍:许多关于Python库的书籍可以帮助您深入学习。这些书籍通常以系统的方式介绍库的使用方法,并提供实践案例。您可以在亚马逊、O'Reilly、Packt等网站找到相关书籍。
结合这些资源,您可以更深入地学习和掌握这些库的使用方法,从而提高您的编程技能和解决实际问题的能力。
NumPy 库
查老四:NumPy是一个用于处理数组和矩阵运算的Python库。首先,我们需要安装NumPy库:
pip install numpy
安装完成后,我们就可以开始学习NumPy了。首先要导入NumPy库:
import numpy as np
NumPy的核心数据结构是ndarray,它是一个多维数组。我们可以通过以下方式创建一个一维数组:
array1 = np.array([1, 2, 3])
print(array1) # 输出: [1 2 3]
我们也可以创建一个二维数组:
array2 = np.array([[1, 2], [3, 4], [5, 6]])
print(array2)
# 输出:
# [[1 2]
# [3 4]
# [5 6]]
NumPy提供了许多内置函数,如进行基本数学计算。例如,求两个数组的和:
array3 = np.array([4, 5, 6])
result = np.add(array1, array3)
print(result) # 输出: [5 7 9]
示例练习:
请创建一个形状为(3, 3)的二维数组,并将所有元素设置为1。然后,将对角线上的元素设置为0。
import numpy as np
# 创建一个3x3的全1数组
array = np.ones((3, 3))
# 将对角线上的元素设置为0
np.fill_diagonal(array, 0)
print(array)
# 输出:
# [[0. 1. 1.]
# [1. 0. 1.]
# [1. 1. 0.]]
Pandas 库
Pandas是一个强大的数据分析和数据处理库。首先,我们需要安装Pandas库:
pip install pandas
安装完成后,我们就可以开始学习Pandas了。首先要导入Pandas库:
import pandas as pd
Pandas的核心数据结构是DataFrame,它是一个二维表格,类似于Excel表格。我们可以通过以下方式创建一个简单的DataFrame:
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
"City": ["New York", "San Francisco", "Los Angeles"]
}
df = pd.DataFrame(data)
print(df)
# 输出:
# Name Age City
# 0 Alice 25 New York
# 1 Bob 30 San Francisco
# 2 Charlie 35 Los Angeles
Pandas提供了许多函数来处理和清洗数据。例如,我们可以通过列名选择某一列的数据:
ages = df["Age"]
print(ages)
# 输出:
# 0 25
# 1 30
# 2 35
# Name: Age, dtype: int64
我们还可以对数据进行筛选。比如,我们想找出年龄大于等于30岁的人:
older_than_30 = df[df["Age"] >= 30]
print(older_than_30)
# 输出:
# Name Age City
# 1 Bob 30 San Francisco
# 2 Charlie 35 Los Angeles
Pandas还提供了许多其他有用的功能,如数据排序、缺失值处理、数据合并等。
示例练习:
给定以下数据,创建一个DataFrame,并找出年龄最大的人的信息
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
"City": ["New York", "San Francisco", "Los Angeles"]
}
import pandas as pd
# 创建DataFrame
df = pd.DataFrame(data)
# 找出年龄最大的人的信息
oldest_person = df[df["Age"] == df["Age"].max()]
print(oldest_person)
# 输出:
# Name Age City
# 2 Charlie 35 Los Angeles
至此,我们已经介绍了Pandas的基本概念和用法。在实际应用中,您可能需要处理更复杂的数据和任务,建议您查阅Pandas的官方文档以获取更多信息。
Requests 库
Requests是一个非常流行的Python库,用于发出HTTP请求。首先,我们需要安装Requests库:
pip install requests
安装完成后,我们就可以开始学习Requests了。首先要导入Requests库:
import requests
使用Requests库,我们可以轻松地发送HTTP请求。例如,我们可以发送一个GET请求来获取网页的内容:
url = "https://jsonplaceholder.typicode.com/todos/1"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
print("请求成功!")
else:
print("请求失败!")
# 输出请求到的内容
print(response.text)
除了GET请求外,我们还可以发送POST、PUT、DELETE等请求。例如,我们可以发送一个POST请求来提交数据:
url = "https://jsonplaceholder.typicode.com/posts"
data = {
"title": "My new post",
"body": "This is the content of my new post.",
"userId": 1
}
response = requests.post(url, data=data)
if response.status_code == 201:
print("创建成功!")
else:
print("创建失败!")
print(response.text)
示例练习:
使用Requests库,向"https://jsonplaceholder.typicode.com/users" 发送一个GET请求,并打印出请求到的JSON数据。
import requests
url = "https://jsonplaceholder.typicode.com/users"
response = requests.get(url)
if response.status_code == 200:
users = response.json()
for user in users:
print(user)
else:
print("请求失败!")
至此,我们已经介绍了Requests库的基本概念和用法。实际上,Requests库还有很多其他功能,例如处理Cookies、设置请求头等。建议您查阅Requests的官方文档以获取更多信息。
实战项目
查老四:我们将针对NumPy、Pandas和Requests库进行实战项目。以下是今天的实验项目要点:
- 选择一个与NumPy相关的简单项目,如实现一个简单的数学计算或数据分析任务。
- 选择一个与Pandas相关的简单项目,如数据清洗和分析任务。
- 选择一个与Requests相关的简单项目,如编写一个简单的网页抓取程序。
在开始实战练习之前,请确保您已经安装了NumPy、Pandas和Requests库。您可以使用如下命令安装:
pip install numpy pandas requests
以下是每个项目的详细描述和相关指导:
- NumPy项目:实现一个简单的数学计算或数据分析任务。
任务描述:计算正态分布随机数的均值和标准差。
指导: a. 使用NumPy的random.normal()
函数生成1000个服从正态分布的随机数。 b. 使用NumPy的mean()
和std()
函数分别计算随机数的均值和标准差。 c. 输出计算结果。 - Pandas项目:数据清洗和分析任务。
任务描述:分析某个城市的天气数据。
指导: a. 从网络上找一个包含天气数据的CSV文件(如从https://www.kaggle.com/datasets 中搜索相关数据集)。 b. 使用Pandas的read_csv()
函数读取CSV文件。 c. 使用Pandas的数据清洗和分析功能,如查看数据概览、删除缺失值、计算最高温度和最低温度的平均值等。 d. 输出分析结果。 - Requests项目:编写一个简单的网页抓取程序。
任务描述:抓取某个网站的页面标题。
指导: a. 选择一个目标网站(如https://www.wikipedia.org/)。 b. 使用Requests库发送HTTP请求,获取网站的HTML内容。 c. 使用正则表达式(或Beautiful Soup库)解析HTML内容,提取页面标题。 d. 输出页面标题。
在进行实战项目时,请尝试自己编写代码。如果在操作过程中遇到问题,请随时向我请教。我将为您提供帮助和解答。祝您实战项目顺利!
实战 1
以下是一个利用NumPy实现简单数学计算任务的示例代码:
import numpy as np
# a. 使用 NumPy 的 random.normal() 函数生成 1000 个服从正态分布的随机数
mu = 0 # 均值(mean)
sigma = 1 # 标准差(standard deviation)
random_numbers = np.random.normal(mu, sigma, 1000)
# b. 使用 NumPy 的 mean() 和 std() 函数分别计算随机数的均值和标准差
mean_value = np.mean(random_numbers)
std_value = np.std(random_numbers)
# c. 输出计算结果
print(f"随机数的均值: {mean_value:.4f}, 标准差: {std_value:.4f}")
该代码首先导入了NumPy库,然后使用random.normal()
函数生成了1000个正态分布的随机数。接着,我们使用mean()
和std()
函数分别计算了这些随机数的均值和标准差,并通过格式化字符串(f-string)输出了计算结果。
实战 2
以下是一个使用Pandas分析天气数据的示例代码。请注意,由于我无法从网络上直接获取CSV文件,您需要先下载相关数据集,并将其放在适当的位置。然后请更新下面代码中的file_path
变量,以匹配您的文件路径。
import pandas as pd
# a. 下载天气数据的CSV文件并将其放在合适的位置(例如:'./weather_data.csv')
# b. 使用 Pandas 的 read_csv() 函数读取 CSV 文件
file_path = './weather_data.csv' # 更新此处为实际文件路径
weather_data = pd.read_csv(file_path)
# c. 使用 Pandas 的数据清洗和分析功能
# 查看数据概览
print("数据概览:")
print(weather_data.head())
# 删除缺失值
weather_data = weather_data.dropna()
# 计算最高温度和最低温度的平均值(这里以列名 'max_temp' 和 'min_temp' 为例,请根据实际情况修改)
avg_max_temp = weather_data['max_temp'].mean()
avg_min_temp = weather_data['min_temp'].mean()
# d. 输出分析结果
print(f"最高温度的平均值: {avg_max_temp:.2f}, 最低温度的平均值: {avg_min_temp:.2f}")
本示例首先导入了Pandas库,然后使用read_csv()
函数读取了天气数据CSV文件。接着,我们查看了数据的概览、删除了缺失值,并计算了最高温度和最低温度的平均值。最后,我们通过格式化字符串(f-string)输出了分析结果。请确保您的CSV文件包含与示例相对应的列名,否则请根据实际列名进行调整。
实战 3
以下是一个使用Requests库和正则表达式抓取网站页面标题的示例代码:
import requests
import re
# a. 选择一个目标网站
url = 'https://www.wikipedia.org/'
# b. 使用 Requests 库发送 HTTP 请求,获取网站的 HTML 内容
response = requests.get(url)
html_content = response.text
# c. 使用正则表达式解析 HTML 内容,提取页面标题
title_pattern = re.compile(r'<title>(.+?)<\/title>', re.IGNORECASE)
title_match = title_pattern.search(html_content)
if title_match:
# d. 输出页面标题
page_title = title_match.group(1)
print(f"页面标题: {page_title}")
else:
print("未找到页面标题")
本示例首先导入了requests
库和re
模块。然后我们选择了目标网站,并使用requests.get()
函数获取HTML内容。接着,我们使用正则表达式解析HTML内容并提取页面标题。最后,我们通过格式化字符串(f-string)输出页面标题。
如果您希望使用Beautiful Soup库进行HTML解析,请参考下面的示例代码:
import requests
from bs4 import BeautifulSoup
# a. 选择一个目标网站
url = 'https://www.wikipedia.org/'
# b. 使用 Requests 库发送 HTTP 请求,获取网站的 HTML 内容
response = requests.get(url)
html_content = response.text
# c. 使用 Beautiful Soup 解析 HTML 内容,提取页面标题
soup = BeautifulSoup(html_content, 'html.parser')
page_title = soup.title.string
# d. 输出页面标题
print(f"页面标题: {page_title}")
在这个版本中,我们首先导入了requests
库和BeautifulSoup
类。其他步骤与之前的版本相同,但在解析HTML内容时,我们使用了Beautiful Soup库。
matplotlib
查老四:当然可以!matplotlib
是一个非常强大且灵活的Python数据可视化库。它提供了丰富的功能,可以帮助您创建各种图表来展示数据。matplotlib
库的核心模块是pyplot
,它提供了类似于MATLAB的接口,使您能够快速地绘制各种图形。
首先,您需要安装matplotlib
库,可以使用以下命令:
pip install matplotlib
接下来,我们来看一下如何使用matplotlib
库的一些基本功能:
- 导入库:
在使用matplotlib
之前,需要导入pyplot
模块。通常,我们将其重命名为plt
以便于后续使用
import matplotlib.pyplot as plt
绘制简单的折线图:
使用plt.plot()
函数,您可以轻松绘制简单的折线图。以下示例展示了如何绘制一个简单的折线图:
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.plot(x, y)
plt.show()
添加图表元素:
您还可以添加更多元素来完善您的图表,例如标题、轴标签等。
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.plot(x, y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Simple Line Plot')
plt.show()
绘制其他类型的图表:
matplotlib
还支持绘制许多其他类型的图表,如柱状图、散点图、饼图等。以下是一些示例:
柱状图:
labels = ['A', 'B', 'C', 'D', 'E']
values = [3, 7, 4, 9, 6]
plt.bar(labels, values)
plt.show()
散点图:
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.scatter(x, y)
plt.show()
饼图:
labels = ['A', 'B', 'C', 'D', 'E']
sizes = [15, 30, 20, 25, 10]
plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.axis('equal') # 使饼图为圆形
plt.show()
多个图形和子图:
您还可以使用subplot()
函数在同一画布上创建多个子图。
x = [1, 2, 3, 4, 5]
y1 = [2, 4, 6, 8, 10]
y2 = [1, 3, 5, 7, 9]
# 创建一个1行2列的子图
plt.subplot(1, 2, 1) # 第一个参数是行数,第二个参数是列数,第三个参数是子图的索引
plt.plot(x, y1)
plt.title('Line Plot 1')
plt.subplot(1, 2, 2)
plt.plot(x, y2)
plt.title('Line Plot 2')
plt.show()
自定义图形样式:
您可以对图形的线条、颜色、点样式等进行自定义。
x = [1, 2, 3, 4, 5]
y1 = [2, 4, 6, 8, 10]
y2 = [1, 3, 5, 7, 9]
plt.plot(x, y1, 'r-', linewidth=2, label='Line 1') # 红色实线,线宽为2
plt.plot(x, y2, 'g--', linewidth=2, label='Line 2') # 绿色虚线,线宽为2
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Customized Line Plot')
plt.legend() # 显示图例
plt.show()
保存图像:
您还可以使用savefig()
函数将图形保存为图像文件。
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.plot(x, y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Simple Line Plot')
plt.savefig('line_plot.png') # 保存为PNG文件,您还可以选择其他格式,如JPEG、SVG等
plt.show()
这里只是简要介绍了matplotlib
库的一些基本功能,实际上matplotlib
库提供了非常丰富的图形样式和自定义选项。您可以访问其官方文档(https://matplotlib.org/stable/contents.html )以了解更多有关如何使用matplotlib
库的详细信息。
Scrapy
Scrapy是一个用于网络爬虫的应用框架,用Python编写。Scrapy提供了一种简单且高效的方法来从网站上抓取数据。使用Scrapy,您可以创建一个爬虫,自动遍历网页并提取所需的信息。Scrapy具有良好的灵活性,允许您自定义抓取过程中的各个环节。
以下是Scrapy的主要组件和功能:
- 引擎(Engine):Scrapy引擎负责控制数据流在系统的各个组件之间的流动,并处理相应的事件。引擎的主要任务是响应并处理各个组件发出的请求和信号。
- 调度器(Scheduler):调度器接收引擎发出的请求,然后将请求排队。当引擎准备处理请求时,调度器将排队的请求返回给引擎。
- 下载器(Downloader):下载器负责获取网页并将其返回给引擎。引擎会将这些网页传递给爬虫以提取所需信息。
- 爬虫(Spiders):爬虫是您编写的,用于定义如何从网页提取信息的类。爬虫接收网页并提取所需数据,然后生成新的请求,以便进一步抓取更多网页。
- 项目管道(Item Pipelines):项目管道是用于处理提取到的数据的一系列处理组件。您可以定义管道来清洗、验证、存储数据等。
- 中间件(Middlewares):中间件允许您自定义Scrapy的请求和响应处理。例如,您可以使用中间件处理重定向、限制请求速率、添加代理等。
要开始使用Scrapy,您需要首先安装它。您可以使用pip
安装Scrapy:
pip install scrapy
注意国内安装可以使用ali镜像
pip install scrapy -i https://mirrors.aliyun.com/pypi/simple/
然后,您可以使用scrapy
命令行工具创建一个新的Scrapy项目:
scrapy startproject myproject
如果是在Jupyter Notebook中运行请使用以下命令
!scrapy startproject myproject
这将在myproject
目录下生成一个新的Scrapy项目。接下来,您需要编写爬虫以定义如何抓取和提取数据。您可以在项目的spiders
目录下创建一个新的Python文件,并在其中定义您的爬虫类。
Scrapy提供了丰富的文档来帮助您了解如何编写爬虫、定义管道、配置中间件等。您可以访问Scrapy官方文档(https://docs.scrapy.org/en/latest/ )以了解更多详细信息。
老猫:有scrapy的范例么
查老四:当然有。下面是一个使用Scrapy抓取quotes.toscrape.com网站的简单示例。这个网站提供了一些名言警句,我们将抓取每个名言的文本和作者。
首先,创建一个Scrapy项目
!scrapy startproject quotes_scraper
接下来,在项目的spiders
目录下创建一个名为quotes_spider.py
的文件,并在其中定义爬虫类:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
'http://quotes.toscrape.com/page/1/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'text': quote.css('span.text::text').get(),
'author': quote.css('span small::text').get(),
}
next_page = response.css('li.next a::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
这个爬虫从start_urls
列表中的第一个URL开始抓取。parse
方法用于处理下载器返回的响应。在这个方法中,我们使用CSS选择器从响应中提取名言及其作者,并将结果以字典形式返回。然后,我们查找下一页的链接并跟踪它。
现在,通过以下命令运行爬虫:
%cd myproject
!scrapy genspider quote http://quotes.toscrape.com
!scrapy crawl quote
运行爬虫后,您会看到输出的名言和作者信息。要将结果保存到文件中,可以使用-o
选项:
!scrapy crawl quote -o quotes.json
这将把结果保存到名为quotes.json
的文件中。您可以根据需要更改输出格式,例如使用quotes.csv
或quotes.xml
。
以上示例仅展示了Scrapy的基本功能。您还可以利用项目管道处理提取的数据、编写中间件以处理请求和响应等。请查阅Scrapy官方文档以了解更多详细信息。