首页 > 其他分享 >唤醒数据中台的数据,分享我的数据驱动秘籍

唤醒数据中台的数据,分享我的数据驱动秘籍

时间:2024-09-15 17:56:49浏览次数:3  
标签:分析 飞轮 秘籍 唤醒 中台 应用 数据

1.自我介绍

虽然我是 Java 开发工程师,但最初的项目是数据治理相关的内容,主要使用的是 ETL 工具 KETTLE 现在这个工具已经改名为 Pentaho,具体的工作内容如下:

  • 数据的抽取(从不同的数据库、ftp)获取数据
  • 转换(数据合并、统计)
  • 生成宽表(用于支撑 BI 部门的数据展示)

这份工作跟数据打交道比较多,当时也是大数据潮流来袭的时候,正好也遇到了疫情,在家办公期间学习了基于 Hadoop 的大数据相关的组件:

  • 大数据基座 Hadoop
  • 数据抽取工具 sqoop、flume
  • 数据存储和分析 Hive、HBase
  • 调度工具 Azkaban(个人也集合 kettle 实现了 ktr 和 kjb 的调用)

唤醒数据中台的数据,分享我的数据驱动秘籍_数据库

随着大数据知识的加深,我开始做大数据相关的系统,当时使用的大数据平台主要是基于分布式数据库 Greenplum 的,并非 Hadoop,但是实现思路是相似的,就是使用多个节点将数据和算力分摊开来,最终再聚合到一起。数据中台也是很重要的一环,这些年数据资产的使用率也备受关注,“数据飞轮”的概念也越来越被推崇,我简单分享一下自己在这方面的应用。

2.沉睡的数据

数据的存储和管理本身并不直接创造价值,真正重要的是如何将这些数据转化为可操作的洞见和决策支持,从而促进企业的数字化转型和业务增长。

唤醒数据中台的数据,分享我的数据驱动秘籍_数据_02

而且设备的数据是海量的,如果不进行合理的分析利用,日积月累的数据仅仅是量的增加,数据沉睡的原因:

  • 数据冗余(没有发掘当前业务之外似乎无关的字段价值)
  • 分析维度少(没有聚合分析数据,导致数据的分析价值较低)
  • 数据未进行结构化处理(一些文档、图片、视频等非结构化数据未进行分类)

3.数据飞轮让数据再次产生价值

“数据飞轮”对我来说是比较新的概念,所谓数据飞轮,指的是数据资产与业务之间形成的正向循环,即数据被应用于业务,进而产生新的数据再反馈回系统,进一步丰富和优化数据资产,从而形成一个持续增强的循环。从运行机制来看,它强调的是一种动态的数据应用过程。整体概念并不繁复,但或许可以为企业转型过程中如何优化数据驱动提供新的思路。

让“数据飞轮”的概念唤醒数据中台的数据,这通常指的是将存储在数据中台中的静态数据转化为可分析、可应用的动态信息。这个过程涉及到数据的整合、清洗、转换和加载(etl),以及数据分析和可视化等多个步骤。以下是一些基本步骤来“唤醒”数据中台的数据:

  1. 数据集成:需要将分散在不同来源的数据集中到数据中台。这可能包括数据库、数据仓库、云存储服务等不同形式的数据源。
  2. 数据清洗:对收集到的数据进行预处理,包括去除重复记录、处理缺失值、纠正错误或格式不统一的数据等。
  3. 数据转换:将数据转换成统一的格式,以便能够被分析工具正确理解和处理。这可能包括数据类型的转换、单位的统一、编码的标准化等。
  4. 数据加载:将清洗和转换后的数据加载到数据中台的数据库或数据仓库中,为后续的分析工作提供基础。
  5. 数据建模:根据业务需求建立数据模型,通过数据挖掘和统计分析方法,发现数据中的模式、趋势和关联性。
  6. 数据分析:使用各种分析工具和技术,如sql查询、机器学习算法、报表生成工具等,对数据进行深入分析,提取有价值的信息。
  7. 数据可视化:通过图表、仪表板等形式将分析结果呈现出来,帮助用户更直观地理解数据和洞察。
  8. 数据共享和应用:将分析后的数据和洞察分享给决策者和相关团队,用于支持决策制定、业务流程优化、产品开发等。
  9. 持续迭代:随着业务的发展和市场的变化,数据中台的数据也需要不断更新和维护,以确保数据的准确性和时效性。

唤醒数据中台的数据,分享我的数据驱动秘籍_数据_03

4.实例分析

我开发的项目中有一个这个样的数据值(场强),这个值一直都是存储在数据库里,一直没有使用,由于“数据飞轮”的启发,发现:

  • 可以通过场强判断设备的类型(物联网设备、广告牌、路灯)
  • 可以通过场强判断距离(移动设备采集两个设备的场强值,可以推算出速度和距离)

这个值,催生出了两个应用,一个是设备类似判断、一个是设备移动速度,这在应用层面增加了分析场景和应用方向。

5.简单总结

大数据时代,借助“数据飞轮”的概念将数据中台里的数据从静态数据转化为可分析、可应用的动态信息,在最初的业务场景下不断发挥着数据价值,可是随着数据量的增加,量变并没有催生质变,需要我们自己去挖掘数据维度和数据的关联关系,让数据的价值随着数据量的增加而增加,唤醒数据中台中的数据是一个长期的任重道远的工程,需要业务人员和开发人员的持续努力,“飞轮”是一个正循环,唤醒数据价值再反哺数据量,让数据的价值持续增加。

标签:分析,飞轮,秘籍,唤醒,中台,应用,数据
From: https://blog.51cto.com/u_13214932/12024261

相关文章

  • 达梦数据库之Oracle到DM的数据迁移
    文章目录一、环境说明二、迁移前准备三、数据迁移一、环境说明源数据库:OracleV11.2.0.4.0目标数据库:DM8二、迁移前准备在DM数据库中执行如下:创建表空间:createtablespace"TEST"datafile'/dmdata/data/DAMENG/TEST.DBF'size50autoextendonnext10;创......
  • Springboot高校学生会管理网站的设计与实现622c6程序+源码+数据库+调试部署+开发环境
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、项目背景与意义随着高校学生会活动的日益增多与复杂化,传统的管理方式已难以满足高效、透明的管理需求。为了提升学生会的组织效率与服务质量,设......
  • Springboot高校后勤保障系统8c549(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、项目背景随着高等教育的普及与高校规模的扩大,高校后勤保障工作日益复杂且重要。作为支撑高校教学、科研及师生生活的基础,后勤保障系统的效率与......
  • 达梦数据库之DM到DM单向的DMHS部署
    文章目录一、数据库安装二、DMHS安装三、源端和目的端开启归档及逻辑日志四、配置ddl辅助表和触发器五、配置目的端六、启动目的端七、配置源端八、启动源端九、验证同步一、数据库安装两个单机DM8都需要做:1、安装数据库软件2、初始化实例3、注册服务并启动......
  • RHEL8下的IRIS CACHE数据库部署
    一、概述IRIS是数据库管理平台,安装IRIS+Caché相当于安装完整MySQL。EPIC基于Caché开发了Chronicles管理工具,医院系统使用EPIC系统时,通常使用Chronicles操作数据库。IRIS提供完整的MySQL安装实例,包括数据库、管理工具和连接工具。二、部署1、环境准备本次测试的环境采用虚拟主......
  • 使用Altair轻松实现统计数据可视化-从基础图表到高级交互
    在数据科学和数据可视化领域,生成清晰、漂亮的统计图表对于展示数据和传达见解至关重要。Python中有许多强大的库可以帮助我们实现这一目标,其中Altair库是一个非常流行的选择。Altair是一个基于Vega和Vega-Lite的声明式统计可视化库,它使得生成交互式、漂亮的图表变得非常简单。本文......
  • Springboot高校宿舍分配管理系统40783(程序+源码+数据库+调试部署+开发环境)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容一、研究背景与意义随着高校招生规模的不断扩大,宿舍资源的合理分配与管理成为高校后勤工作的重要一环。传统的人工分配方式存在效率低下、信息不透......
  • 帝国cms连接不上数据库怎么办
    当帝国CMS无法连接到数据库时,通常是因为配置问题、数据库服务问题或网络问题等引起的。以下是一些具体的排查步骤和解决方法:1.检查数据库配置确保数据库配置文件中的信息正确无误。对于帝国CMS7.0及以后版本,数据库配置文件通常位于:数据库配置文件位置:e/config/config.php......
  • 达梦数据库之异构数据库(dm-oracle)的dblink
    文章目录一、安装客户端二、添加环境变量三、配置tnsnames.ora四、开始创建dblink准备一台装有oracle数据库和一台装有DM数据库一、安装客户端解压客户端文件到/opt/oracle/下查看解压文件二、添加环境变量vim.bash_profileexportPS1="[`whoami`@`hostname`......
  • DDR4进行数据传输,为什么高电平功耗低
    DDR4在数据传输过程中,高电平功耗相对较低的原因主要与其采用的电平接口标准和内部机制有关。具体来说,这可以归结为以下几个方面:POD电平接口标准DDR4摒弃了上几代内存产品普遍使用的SSTL电平接口,转而采用了一种新的I/O架构——POD(PseudoOpenDrain,伪漏极开路)。与SSTL相比,P......