Python 是进行数据分析和可视化的强大工具。它提供了丰富的库和框架来帮助数据科学家和分析师处理数据集、执行统计分析以及创建交互式图表。以下是一些常用的库以及它们的基本用法。
数据处理库
- Pandas:
- Pandas 是 Python 中最流行的数据分析库之一,它提供了数据结构和数据操作功能,非常适合处理表格数据。
- 安装:
pip install pandas
- 示例代码:
import pandas as pd # 创建 DataFrame data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 34, 29, 42]} df = pd.DataFrame(data) # 查看 DataFrame print(df)
数据可视化库
-
Matplotlib:
- Matplotlib 是一个强大的绘图库,支持多种图表类型,如线图、散点图、直方图等。
- 安装:
pip install matplotlib
- 示例代码:
import matplotlib.pyplot as plt plt.plot([1, 2, 3, 4]) plt.ylabel('some numbers') plt.show()
-
Seaborn:
- Seaborn 是基于 Matplotlib 的高级接口,专注于统计图形,提供了更美观的默认风格。
- 安装:
pip install seaborn
- 示例代码:
import seaborn as sns import matplotlib.pyplot as plt tips = sns.load_dataset("tips") sns.scatterplot(x="total_bill", y="tip", data=tips) plt.show()
-
Plotly:
- Plotly 支持创建交互式图表,并且可以很容易地嵌入到网页中。
- 安装:
pip install plotly
- 示例代码:
import plotly.express as px import pandas as pd df = pd.DataFrame({ "Fruit": ["Apples", "Oranges", "Bananas", "Apples", "Oranges", "Bananas"], "Amount": [4, 1, 2, 2, 4, 5], "City": ["SF", "SF", "SF", "Montreal", "Montreal", "Montreal"] }) fig = px.bar(df, x="Fruit", y="Amount", color="City", barmode="group") fig.show()
其他库
-
NumPy:
- NumPy 提供了高性能的多维数组对象,以及数学函数来操作这些数组。
- 安装:
pip install numpy
-
SciPy:
- SciPy 是一个用于科学和技术计算的库,提供了广泛的算法和实用函数。
- 安装:
pip install scipy
综合应用示例
以下是一个简单的例子,展示了如何使用 Pandas 进行数据处理,然后使用 Matplotlib 和 Seaborn 进行可视化。
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 加载数据
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 34, 29, 42], 'Salary': [50000, 70000, 60000, 80000]}
df = pd.DataFrame(data)
# 数据分析
mean_age = df['Age'].mean()
print(f"平均年龄: {mean_age}")
# 数据可视化
sns.barplot(x=df['Name'], y=df['Salary'])
plt.title('Salary by Name')
plt.show()
这些库和工具为数据分析师提供了强大的手段来探索数据、发现模式以及呈现结果。根据项目的需求和个人偏好,可以选择最适合的库来完成工作任务。
标签:数据分析,plt,install,python,df,可视化,pd,pip,import From: https://blog.csdn.net/ethnicitybeta/article/details/142259433