数据可视化基础
定义与目的
定义
1.数据可视化是将数据以图形或图像的形式展示出来的过程
2.目的是帮助人们更直观地理解、分析和解释数据
目的
1.揭示数据中的模式、趋势和关联
2.辅助决策制定和问题解决
3.增进数据沟通和交流
数据可视化类型
matplotlib库实现简单数据可视化
1. 导入matplotlib库
import matplotlib.pyplot as plt
2. 绘制折线图
展示数据随时间或其他连续变量的变化趋势
适用于时间序列数据
简单案例
x = [1, 2, 3, 4, 5]
y = [5, 7, 3, 8, 4]
plt.plot(x, y)
plt.show()
例如
3. 绘制柱状图
简单案例
x = [1, 2, 3, 4, 5]
y = [5, 7, 3, 8, 4]
plt.bar(x, y)
plt.show()
例如
4. 绘制散点图
散点图常用来展示2个维度间的关系
尤其做相关性或回归分析时,经常用来分析回归的拟合模型的评估,例如 线性回归、指数型回归、还是二项式回归等
简单案例
x = [1, 2, 3, 4, 5]
y = [5, 7, 3, 8, 4]
plt.scatter(x, y)
plt.show()
例如
seaborn库实现高级数据可视化
1. 导入seaborn库
import seaborn as sns
2. 绘制饼图
1.饼图是在一个圆形图中,显示不同事物分布的一种统计图形。
2.在需要描述某一部分或某几个关键部门占总体的百分比时,适合使用饼图。
3.尤其在图形上搭建百分比更能清晰地表达观点。
简单案例
labels = ['A', 'B', 'C', 'D']
sizes = [15, 30, 45, 10]
plt.pie(sizes, labels=labels, autopct='1.1f')
plt.show()
例如
3. 绘制箱线图
简单案例
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})
sns.boxplot(data=df)
plt.show()
例如
4. 绘制热力图
热力图热特殊的高亮和颜色来显示不同图片上信息的差异和分布
它是展示数据分布的基本方法
可用来展示用户在网页上的点击、地区人群分布、交通车辆密度等,也可以展示不同变量的相关关系
简单案例
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
sns.heatmap(data)
plt.show()
例如(颜色越深表示值越小)
plotly库实现交互式数据可视化
1. 导入plotly库
import plotly.express as px
2. 绘制饼图
简单案例
fig = px.pie(values=[40, 30, 20], names=['A', 'B', 'C'])
fig.show()
3. 绘制散点图
简单案例
df = px.data.iris()
fig = px.scatter(df, x='sepal_width', y='sepal_length', color='species')
fig.show()
4. 绘制地图
简单案例
df = px.data.gapminder()
fig = px.scatter_geo(df, locations='iso_alpha', color='continent', projection='natural earth')
fig.show()
还有很多画图方式
例如
1.漏斗图(从单击到下一步到达网站 之间的流失非常大)
2.雷达图
3.词云
4.关系图
数据可视化实践
数据准备 | 可视化设计 | 交互与动态可视化 | 可视化评估与优化 |
数据清洗 | 选择合适的图表类型 | 交互性设计 | 评估可视化效果 |
处理缺失值、异常值和重复值 | 根据数据类型和分析目的选择合适的图表类型 | 添加交互元素,如鼠标悬停提示、筛选器等 | 通过用户反馈和数据分析评估可视化效果 |
确保数据质量和准确性 | 平衡信息展示和美观性 | 提高用户参与度和数据探索体验 | 识别问题和改进点 |
数据转换 | 配色方案 | 动态可视化 | 优化可视化设计 |
将数据转换为适合可视化的格式 | 选择合适的颜色搭配,增强图表的可读性和吸引力 | 使用动画和过渡效果展示数据变化 | 根据评估结果调整图表类型、配色方案等 |
例如:分类数据转换为数值型,时间序列数据转换为日期格式等 | 考虑颜色对情绪和认知的影响 | 揭示数据中的动态模式和趋势 | 持续改进和优化可视化效果 |
新手误区
1.没有明确的可视化目标 通过特殊图形设置误导受众
2.选择过于“花哨”的图形却忽略了可视化的本质
3.缺乏根据信息表达目标选择“最佳”图形的意识
4.信息过载
总结
进行Python数据可视化的优势:
1.直观易懂:通过图表和图像的形式展示数据,让人们更容易理解和分析数据。
2.提高工作效率:帮助人们更快地识别模式和趋势,从而提高数据分析和决策的效率。
3.易于分享和沟通:可以轻松地将数据和结果分享给他人,便于团队之间的沟通和协作。
4.支持多种数据类型和格式:Python数据可视化库支持多种数据类型和文件格式,使得数据分析更加灵活和高效。
5.可定制和个性化:提供了丰富的自定义选项,可以让开发者根据需求调整图表的样式、颜色、布局等,从而创建个性化的数据可视化