数据建模和可视化是大规模数据分析解决方案支持的商业智能 (BI) 工作负载的核心。 从本质上讲,数据可视化为报告和决策提供支持,帮助组织取得成功。
在本模块中,你将了解分析数据建模和数据可视化的基本原则,使用 Microsoft Power BI 作为平台来在操作中探索这些原则。
介绍 Power BI 工具和工作流
数据分析师可以使用许多数据可视化工具来探索数据并直观地总结见解;包括 Microsoft Excel 等工作效率工具中的图表支持,以及用于探索 Azure Synapse Analytics 和 Azure Databricks 等服务中数据的笔记本中的内置数据可视化小组件。
但是,对于企业规模业务分析,通常需要一个可支持复杂数据建模、交互式报告和安全共享的集成解决方案。
Microsoft Power BI
Microsoft Power BI 是一套工具和服务,数据分析师可以使用这些工具和服务构建交互式数据可视化效果,供业务用户使用。
要创建数据可视化解决方案,典型的工作流程是从 Power BI Desktop 开始,Power BI Desktop 是一个 Microsoft Windows 应用程序,你可在其中导入各种数据源的数据,然后在分析数据模型中合并、组织这些源的数据,创建包含数据交互式可视化效果的报表。
创建数据模型和报表后,可以将其发布到 Power BI 服务,这是一种云服务,业务用户可以在其中发布报表并与之交互。
你还可以使用 Web 浏览器直接在服务中进行一些基本的数据建模和报表编辑,但与 Power BI Desktop 工具相比,其功能有限。
可以使用此服务来计划数据源(报表基于此数据源生成)刷新,并与其他用户共享报表。 还可以定义仪表板和应用,使其将相关报表合并在一个易于使用的位置。
用户可以通过 Web 浏览器或移动设备上的 Power BI 手机应用,使用 Power BI 服务中的报表、仪表板和应用。
介绍数据建模的核心概念
使用分析模型可以构建数据来支持分析。模型基于数据的相关表,并定义你要分析或报告(称为“度量”)的数值,以及要将其聚合的实体(称为“维度”)。
例如,模型可能包含一个表,其中包含销售的数值度量值(例如收入或数量)以及产品、客户和时间的维度。 这将使你能够跨一个或多个维度聚合销售度量值(例如,按客户确定总收入,或每月按产品的销售总件数)。 从概念上讲,该模型形成了一个多维结构,该结构通常称为“多维数据集”,其中维度相交的任何点都代表这些维度的聚合度量值。
(尽管我们通常将分析模型称为“多维数据集”,即可以有三个以上(或以下)的维度 - 但对我们来说,要可视化超过三个维度并不容易!)
表和架构
维度表表示要用于聚合数值度量值的实体,例如产品或客户。每个实体都由具有唯一键值的行表示。 其余列标识实体的属性,例如,产品有名称和类别,客户有地址和城市。
在大多数分析模型中,通常都包含一个时间维度,以便可以聚合与一段时间内的事件相关的数值度量值。
将按模型中的各个维度聚合的数值度量值存储在事实数据表中。 事实数据表中的每一行表示一个记录的事件,该事件具有与之关联的数值度量值。 例如,以下架构中的“销售”表表示单个项的销售交易,其中包含销售数量和收入的数值。
这种类型的架构,其中一个事实数据表与一个或多个维度表相关,被称为星型架构(想象有五个维度与一个事实数据表相关,则架构将形成一个五角星!)。
还可以定义更复杂的架构,其中维度表与包含更多详细信息的其他表相关(例如,可以在与 Product 表相关的单独 Category 表中表示产品类别的属性 - 在这种情况下,设计被称为雪花型架构。事实数据表和维度表的架构用于创建分析模型,在该模型中,将预计算所有维度的度量聚合。与每次计算聚合相比,性能分析和报告活动的速度要快得多。)
属性层次结构
关于分析模型需要考虑的最后一件事是创建属性层次结构,使你能够快速向上钻取或向下钻取以在分层维度中查找不同级别的聚合值。
例如,请考虑目前讨论过的维度表中的属性。 在“产品”表中,可以形成一个层次结构,其中每个类别可能包含多个命名产品。 同样,在“客户”表中,可以形成一个层次结构来表示每个城市中的多个命名客户。 最后,在“时间”表中,可以形成年、月和日的层次结构。
可以使用层次结构的每个级别的预聚合值来生成该模型,使你能够快速更改分析范围,例如,通过按年份查看总销售额,然后向下钻取以查看按月划分的总销售额的更详细明细。
Microsoft Power BI 中的分析建模
可以使用 Power BI 从数据表中定义分析模型,这些数据表可以从一个或多个数据源导入。
然后,可以使用 Power BI Desktop 的“模型”选项卡上的数据建模界面,通过在事实数据表和维度表之间创建关系、定义层次结构、设置表中字段的数据类型和显示格式,来定义分析模型,并管理数据的其他属性,这些属性有助于定义丰富的分析模型。
描述数据可视化的注意事项
创建模型后,可以使用该模型生成可包含在报表中的数据可视化效果。
数据可视化有很多种,有些是常用的,有些比较专业。Power BI 包括一组广泛的内置可视化效果,这些可视化效果可通过自定义和第三方可视化效果进行扩展。本单元的其余部分将讨论一些常见的数据可视化效果,但这不是完整的列表。
可视化方式 | 图示 | 描述 |
---|---|---|
表和文本 | 表和文本通常是传达数据的最简单方法。 当必须显示大量相关值时,表非常有用,卡片中的单个文本值可能是显示重要图形或指标的有用方法。 | |
条形图和柱形图 | 条形图和柱形图是直观比较离散类别的数值的一个好方法。 | |
折线图 | 折线图还可用于比较分类值,并且当需要检查趋势(通常是随着时间的推移)时非常有用。 | |
饼图 | 饼图通常用于业务报表,以直观方式将分类值作为总计的比例进行比较。 | |
散点图 | 散点图在你想要比较两个数值度量值并确定它们之间的关系或相关性时非常有用。 | |
Maps | 地图是直观比较不同地理区域或位置的值的一种好方法。 | |
Power BI 中的交互式报表 | 在 Power BI 中,报表中相关数据的视觉元素会自动相互链接并提供交互性。 例如,在一个可视化效果中选择单个类别将自动在报表的其他相关可视化效果中筛选和突出显示该类别。 在上图中,在“销售额(按城市和类别)”柱形图中选择了城市“西雅图”,其他可视化效果经过筛选,仅反映西雅图的值。 |