首页 > 其他分享 >大数据平台建设

大数据平台建设

时间:2023-12-22 09:56:37浏览次数:23  
标签:平台 查询 问题 建设 数据安全 数据 工具化

大数据平台是什么?

大数据处理的基础平台

数仓建设和数据管理的平台

贴合业务、面向应用的数据分析和使用的工具

面临的问题?

如何管理一个大的单体集群,如何接入数据

数据接入之后如何存储和查询数据,如何管理数据

怎样保障数据安全、如何将数据展示给客户。

大数据平台的能力

数据存储&构建数仓

大数据平台所面临的数据种类多种多样,包括结构化和非结构化数据

对不同类型的数据提供对应的存储模型和查询方式

快速计算

  • 离线批处理
  • 实时流计算
  • 机器学习预测分析

数据接入

  • 数据具有来源多、类型杂、数据量大等特点

  • 大数据平台需要能够对接各种来源和各种类型的海量数据

保障数据安全

  • 不仅需要考虑平台本身的安全,更重要的是数据的安全问题

  • 对数据进行隔离和访问授权、对用户进行访问控制

数据管理&数据治理

  • 随处可见的数据不统一
  • 难以完成的数据质量
  • 难以完成的数据模型梳理

数据查询&可视化

优秀快速的数据查询引擎可以帮助我们的数据平台接纳更多的用户

数据的核心价值在于通过对历史数据的分析,展现出数据的趋势

集群的监控和管理

面对很多服务器以及部署的很多大数据组件和服务

对集群进行完善的管理和监控可以提高数据平台的稳定性

为什么需要大数据平台

量变引起质变

数据量越来越大、维度越来越多

海量数据下,交互难度和技术难道越来越大

用户专业程度逐步提升,老的方案无法满足需求

为了解决哪些问题?

  1. 企业对数据、效率的要求提高,从而开展大数据平台建设
  2. 大数据平台建设即为构建企业的数据资产运营中心
  3. 大数据平台的目标是发挥数据的价值,支持企业的发展

为什么要有大数据

3个解决和2个提升

  • 解决“坐井观天”问题

  • 解决“一叶障目”问题

  • 解决“瞎子摸象”问题

  • 提升“一叶知秋”的能力

  • 提升“运筹帷幄,决胜千里”的能力

大数据平台设计

稳定性:大数据平台支持量级较大的数据处理和程序计算

可扩展性:随着数据和业务的增加,可扩展是必修课

安全性:保障数据安全是大数据平台不可忽视的问题

Step1 工具化:以业务维度对常用操作工具化,避免重复劳动

Step2 平台化:将多种组件和工具集合起来,做成统一平台

Step3 产品化:在平台的基础上提高易用性,达到产品级输出

大数据技术栈

image-20231220103200356

各大名企技术栈

  • 美团

image-20231220103332048

  • 七牛云

image-20231220103359611

  • 知乎

image-20231220103511178

  • 滴滴

image-20231220103621705

标签:平台,查询,问题,建设,数据安全,数据,工具化
From: https://www.cnblogs.com/shine-rainbow/p/17920600.html

相关文章

  • 【低代码】低代码平台协同&敏捷场景下的并行开发解决方案探索
    低代码开发平台的出现,大大地提高的产品交付效率,但是在协同开发、敏捷迭代的场景下,也暴露出了一些问题。例如:多人同时对项目进行修改,相互影响甚至修改内容被互相覆盖;同一项目下多个需求同步开发,但需求上线日期不统一,无法拆分上线等等。本文将根据不同诉求,渐进式的讨论支......
  • 厦门大学数据库实验室简介_厦门大学数据库实验室
    实验室建设了国内高校首个也是目前唯一一个“中国高校大数据课程公共服务平台”(平台官网),为教师开展大数据教学和学生学习大数据课程提供全方位、一站式免费服务,包括讲义PPT、教学大纲、备课指南、学习指南、上机习题、授课视频、技术资料等。研究方向面向当前的海量数据应用,研......
  • LocalSend v1.8.0 开源跨平台的局域网文件传输工具中文版
    LocalSend下载官网地址:https://localsend.org/#/download包管理器使用终端安装。Winget:> wingetinstalllocalsendChocolatey:> chocoinstalllocalsendScoop:> scoopbucketaddextras;scoopinstalllocalsendLocalSend一款开源支持全平台的局域网文......
  • C++ Qt开发:StandardItemModel数据模型组件
    Qt是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍StandardItemModel数据模型组件的常用方法及灵活运用。QStandardItemModel是Qt中用于存储标准......
  • knex——nodejs连接数据库
    前言:最近用到了新工具knex——nodejs连接数据库,感觉很不错的库,记录一下使用过程。 一、介绍  二、配置importdotenvfrom'dotenv'dotenv.config()constConfig={client:'pg',connection:process.env.DB_URL,acquireConnectionTimeout:5000,pool:......
  • openGauss学习笔记-168 openGauss 数据库运维-备份与恢复-导入数据-使用gs_restore命
    openGauss学习笔记-168openGauss数据库运维-备份与恢复-导入数据-使用gs_restore命令导入数据168.1操作场景gs_restore是openGauss数据库提供的与gs_dump配套的导入工具。通过该工具,可将gs_dump导出的文件导入至数据库。gs_restore支持导入的文件格式包含自定义归档格式、目录......
  • CloudCanal x Debezium 打造实时数据流动新范式
    简述Debezium是一个开源的数据订阅工具,主要功能为捕获数据库变更事件发送到Kafka。CloudCanal近期实现了从Kafka消费Debezium格式数据,将其同步到StarRocks、Doris、Elasticsearch、MongoDB、ClickHouse等12种数据库和数仓,补全其数据到达能力。本文将先简单介绍该项......
  • python之动态生成列表和重复数据处理
    动态生成列表:range(起始,终点,步长)方法:print(list(range(1,6)))结果:[1,2,3,4,5]print(list(range(1,22,2)))结果:[1,3,5,7,9,11,13,15,17,19,21]列表解析法生成列表:语法包含三部分:表达式用于计算列表中元素的值、循环语句用于获得循环元素、条件判断语句形式1:列......
  • 2. 运行时数据区域
    运行时数据区域JVM在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域JDK1.7JDK1.81.程序计数器(ProgramCounterRegister)程序计数器是一块较小的内存空间,可以看作是当前线程所执行的字节码的行号指示器字节码解释器工作时就是通过改变这个计......
  • JVM基础篇(三)-JVM结构-运行时数据区之栈帧
    栈帧栈帧的内部结构每个栈帧中存储着:局部变量表(LocalVariables)操作数栈(operandStack)(或表达式栈)动态链接(DynamicLinking)(或指向运行时常量池的方法引用)方法返回地址(ReturnAddress)(或方法正常退出或者异常退出的定义)一些附加信息并行每个线程下的栈都是私有的,因此每个线程都有自己各......