首页 > 编程语言 >[译]使用Python和Dash 创建一个仪表盘(上)

[译]使用Python和Dash 创建一个仪表盘(上)

时间:2023-07-16 22:24:12浏览次数:56  
标签:__ Python app Dash html 可视化 仪表盘 dbc

介绍

在数据科学和分析的领域,数据能力的释放不仅是通过提取见解的方式, 同时也要能通过有效的方式来传达见解.这就是数据可视化发挥见解的地方.

image

数据可视化是信息和数据的可视化呈现. 它使用可视化元素,如图表、图形、地图,使其更容易看懂原始数据中的模式、趋势及异常值.对于数据科学家和分析师来说,数据可视化是一个必不可少的工具,它有助于更快、更准确地理解数据,支持用数据讲故事.并帮助做出数据驱动的决策.

在这篇文章中, 你将学会用Python和Dash框架创建一个仪表盘来可视化Netflix的内容分布和分类.

image

什么是Dash?

Dash是一个开源的低代码框架,由 Plotly 开发, 用来在纯Python中创建分析型的网络应用.传统上为了实现这个目的, 可能需要使用JavaScript和HTML,要求你在后端(Python)和前端(JavaScript和HTML)有所专长.

然而,Dash 弥补了这一差距.使数据科学家和分析师只用Python就可以建立互动的、美观的仪表盘.这方面的低代码开发使Dash成为创建分析性仪表盘的合适选择,特别是对于那些主要使用Python的人.

数据集分析

现在你已经熟悉了Dash, 让我们开始我们的实践项目吧.你将使用Kaggle上Netflix电影和电视节目数据集,由 Shivam Bansal创建.

这个数据集包含截止至2021年Netflix提供的电影和电视节目详细信息,比如内容类型,标题,导演,演员,制作国家.发行年份,评级,持续时间等等.

即使该数据集创建于2021年,它仍然是发展数据可视化技能和了解媒体娱乐趋势的宝贵资源。

使用这个数据集,你的目标是创建一个仪表盘,使以下几点可视化:

  • 内容的地理分布: 一张地图,展示了多年来不同国家的内容生产情况的变化。
  • 内容分类: 这种可视化方法将Netflix的内容分为电视节目和电影,以查看哪些类型的内容最突出。

设置项目工作区

让我们开始为项目创建一个名为netflix-dashboard的目录,然后通过以下命令初始化并激活一个Python虚拟环境:

mkdir netflix-dashboard && cd netflix-dashboard

python3 -m venv netflix-venv && source netflix-venv/bin/activate

接下来,你需要安装一些外部软件包。你将使用pandas进行数据处理,dash用于创建仪表盘,plotly用于创建图表,dash-bootstrap-components用于为仪表盘添加一些样式:

pip3 install pandas dash plotly dash-bootstrap-components

清理数据集

通过Netflix的数据集,你会发现导演、演员和国家这几列的数值缺失。为了方便分析,将date_added列的字符串值转换为日期时间也很方便。

为了清理数据集,你可以创建一个新的文件clean_netflix_dataset.py,代码如下,然后运行它:

import pandas as pd

# Load the dataset
df = pd.read_csv("netflix_titles.csv")
df['director'].fillna("No director", inplace=True)
df['cast'].fillna("No cast", inplace=True)
df['country'].fillna("No country", inplace=True)

# Drop missing and duplicate values
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

df['date_added'] = pd.to_datetime(df['date_added'].str.strip())

# Save the cleaned dataset
df.to_csv('netflix_titles_cleaned.csv', index=False)

开始使用Dash

随着工作区的建立和数据集的清理,你已经准备好开始制作你的仪表盘了。创建一个新文件app.py,代码如下:

from dash import Dash, dash_table, html

# Initialize a Dash app

app = Dash(__name__)

# Define the app layout
app.layout = html.Div([
    html.H1("Netflix Movies and TV Shows Dashboard"),
    html.Hr(),
])

# Start the dash app in local development mode

if __name__ == "__main__":
    app.run_server(debug=True)

让我们来分析一下app.py中的代码:

  • app = Dash(__name__): 这一行初始化了一个新的Dash应用程序。可以把它看作是你的应用程序的基础。
  • app.layout = html.Div(...): app.layout属性让你写类似HTML的代码来设计你的应用程序的用户界面。上面的布局使用html.H1(...)标题元素作为仪表盘的标题,并在标题下面使用水平规则html.Hr()元素。
  • app.run(debug=True): 这一行启动一个开发服务器,在本地开发模式下为你的Dash应用提供服务。Dash使用Flask,一个轻量级的Web服务器框架,将你的应用程序提供给Web浏览器。

在运行app.py之后,你会在终端看到一条信息,表明你的Dash应用程序正在运行,并且可以访问http://127.0.0.1:8050/。在你的网络浏览器中打开这个URL来查看它:

image

结果看起来很普通,对吗?不要担心! 本节旨在展示最基本的Dash应用结构和组件。你很快就会添加更多的功能和组件,使之成为一个很酷的仪表板.

引入Dash Bootstrap组件

下一步是为你的仪表盘的布局编写代码,并为它添加一些样式. 为此,你可以使用Dash Bootstrap Components(DBC),这是一个为Dash提供Bootstrap组件的库,使你能够开发具有响应式布局的风格的应用程序。

仪表板将采用标签布局,这为在同一空间内组织不同类型的信息提供了一种紧凑的方式。每个标签将对应于一个独特的可视化。

让我们继续修改app.py的内容以纳入DBC:

from dash import Dash, dcc, html
import dash_bootstrap_components as dbc

# Initialize a Dash app
app = Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP])

# Define the app layout
app.layout = dbc.Container([
    dcc.Store(id='store'),
    html.H1("Netflix Movies and TV Shows Dashboard"),
    html.Hr(),
    dbc.Tabs([
        dbc.Tab(label='Geographical content distribution', tab_id='tab1'),
        dbc.Tab(label='Content classification', tab_id='tab2')
    ],
        id="tabs",
        active_tab='tab2'
    ),
    html.Div(id="tab-content", className='p-4')
])

# Start the dash app in local development mode
if __name__ == "__main__":
    app.run_server(debug=True)

在这个修改后的布局中,你会看到新的组件:

dbc.Container: 使用dbc.Container作为顶层组件,将整个仪表盘布局包裹在一个响应式的、灵活的容器中。
dcc.Store: 这个Dash Core组件允许你在客户端(用户的浏览器上)存储数据,通过将数据保存在本地来提高应用程序的性能。
dbc.Tabsdbc.Tab: 每个dbc.Tab代表一个单独的标签,它将包含不同的可视化内容。标签属性是出现在标签本身上的内容,而tab_id则用于识别标签。dbc.Tabs的active_tab属性用于指定Dash应用程序启动时的活动标签。

现在运行app.py。现在产生的仪表板将有一个Bootstrap风格的布局,有两个空标签:
image

添加回调和可视化

当使用Dash时,互动性是通过回调函数实现的。回调函数是一个当输入属性发生变化时被自动调用的函数。它被命名为 "回调",因为每当应用程序中发生变化时,Dash就会 "回调 "这个函数。

在这个仪表盘中,你将使用回调来渲染所选标签中的相关可视化内容,每个可视化内容都将存储在自己的Python文件中,在一个新的组件目录下,以便更好地组织和模块化项目结构。

标签:__,Python,app,Dash,html,可视化,仪表盘,dbc
From: https://www.cnblogs.com/bigdata1024/p/17536704.html

相关文章

  • Python【3】有序字典 OrderdDict
    有序字典可以按字典中元素的插入顺序来输出。参考https://www.cnblogs.com/lowmanisbusy/p/10257360.htmlimportcollectionsmy_order_dict=collections.OrderedDict()my_order_dict["name"]="lowman"my_order_dict["age"]=45my_order_dict["money&......
  • 使用python在视频流网站下载ts视频流并合并为完整视频
    #!/usr/bin/python#encoding:utf-8importurllib.requestimportosimportssl#addline1ssl._create_default_https_context=ssl._create_unverified_context#addline2foriinrange(324,666):#起始位置要自己在浏览器的source来看s=str(i)s......
  • Java python C++
    Java和Python的区别编程范式:Java是一种面向对象的编程语言,而Python支持多种编程范式,包括面向对象、函数式和命令式等。这意味着Python在某些情况下可以比Java更简洁、易于理解和编写。代码可读性:Python是一种非常易于阅读和编写的编程语言,其语法和代码风格非常清晰......
  • python编程-核心知识
                  ......
  • python中tk无线按钮使用方法
    先上代码:fromtkinterimport*root=Tk()selected_var=IntVar()radiobutton=Radiobutton(root,text='hzq1',variable=selected_var,value=88)radiobutton.pack()radiobutton2=Radiobutton(root,text='hzq2',variable=selected_var,value......
  • python-2023-07-16
    1、easy_install和pip的有什么区别?2、解决requests安装错误的过程中,由于最新设置的pip环境变量放在了最后,想着能不能将pip和python环境变量临近放置,所以将python下移到了pip旁边,导致在cmd输入python就会自动弹出应用商店,后面通过上移python到原来位置才解决掉。3、在python中//......
  • Python 执行 MP4视频下载
    importrequestsdefextract_video_links(url):"""提取视频链接"""response=requests.get(url)html=response.text#在HTML中查找视频链接pattern=r'src="([^"]+\.mp4)"'matches=re.finda......
  • python魔术方法模拟篇
    6,模拟篇__call____len____length_hint____getitem____setitem____delitem____reversed____contains____iter____missing____enter__和__exit____call__方法所谓的callable就是可以以函数调用的形式来使用的对象,那想让一个类的对象成为callable,我们需要给它定义这个......
  • python:processing
     """进程"""importmultiprocessingimportthreadingimporttimeimportthreadSingdefdance():""":return:"""whileTrue:print('dance')time.sl......
  • 【Python】从同步到异步多核:测试桩性能优化,加速应用的开发和验证
    测试工作中常用到的测试桩mock能力在我们的测试工作过程中,可能会遇到多个项目并行开发的时候,后端服务还没有开发完成,或者我们需要压测某个服务,这个服务测在试环境的依赖组件(如MQ)无法支撑我们svr的并发访问的场景,这个时候我们可能就需要手写一个服务,来替代测试环境的这些依赖组......