首页 > 其他分享 >flink平台项目-cnblog

flink平台项目-cnblog

时间:2023-05-04 12:00:42浏览次数:42  
标签:flink hudi 平台 hive kafka rowkey 架构 cnblog

flink平台项目

目录

title: flink平台项目
date: 2023-01-30T11:26:01Z
lastmod: 2023-02-02T19:27:41Z


架构

以前架构

问题:

  • 需要第三方组件进行持久化,需要增加维护的工作量
  • kafka计算的各分层数据存储在kafka集群中,增加持久化的链路
  • Debezium 定继单节点 出现单点故障
  • hbase存储的时候, kv键值对 , rowkey是主键,使用rowkey查询非常快,但是与非主键数据拉宽,效率较低

比如id 是rowkey,name不是rowkey ,关联name的时候不是rowkey,关联的时候就不快(可以使用二级索引(phenx)加快)

现在架构的说明

dinky 千表入湖

hudi = kafka + hive(操作的是hdfs)

海量数据不丢失

hudi分钟级 准实时. T+1延迟问题得到解决

读取schema不再需要严格定义schema类型

支持数据库表结构的变化

hudi新版本现在支持外部表 0.11.0 ,doris直接外部表读hudi数据,也就是只是hudi中存一份数据

CDH&集群规模

6.3 一台一万

阿里云主机(128G内存 20核cpu 40线程 8THDD 2TSSD) 每年5万

人员配备

开发周期

为什么用flinkcdc

支持全量+增量的功能

项目好处

链路短好维护

  • 时效性
  • 流批一体
  • 复杂的链路

千表入湖工具

阿里云用ververica

flink操作hive

和spark-thrift类似

flink集成hive的步骤

flink 借用了hive 的metastore

  1. 将jar包上传到flink lib 目录下
  2. 配置sql-conf , 主要hive catelog ,后续的操作都是基于hive 库和表
    1. catelog是什么: 指定读取哪里的元数据

flinksql 数据源为kafka

flink读写sql有两种模式

自带的模式

hive的模式

用处:


Temporal Join(时态表join)

单流驱动

一般指的是两个数据流

反应历史不同变化的维度数据

lookup join

指的是数据流和外部表 mysql redis 进行关联统计, 没有历史变化的信息

常见面试题

标签:flink,hudi,平台,hive,kafka,rowkey,架构,cnblog
From: https://www.cnblogs.com/deepJL/p/17370751.html

相关文章

  • vivo积分任务体系的架构演进-平台产品系列05
    作者:vivo互联网平台产品研发团队-MuJunFeng积分体系作为一种常见营销工具,几乎是每一家企业会员营销的必备功能之一,在生活中随处可见,随着vivo互联网业务发展,vivo积分体系的能力也随之得到飞速提升,本篇主要介绍vivo积分任务体系的系统建设历程。一、前言1.1什么是积分体系?......
  • 浅谈智慧医院的信息集成平台建设与配电设计方案
    罗轩志江苏安科瑞微电网研究院有限公司 江苏江阴 214432  摘要:随着云计算、5G、大数据、物联网等技术的不断发展与进步,推动着智慧医院建设的飞速发展。智慧医院建设强调医院内部业务的多流程联动和医疗信息互联互通的高协同效率,突出了数据驱动下构建高质量数据的必要性。文章......
  • 浅谈新能源电动汽车充电设施的建设及运营平台分析
    罗轩志江苏安科瑞电器制造有限公司  江苏江阴 214400   摘要:在社会经济发展的新时期,我国城市化的水平也在随之不断的提高,使我国制造业迅速崛起,并加剧了该行业的竞争力,要想使企业在竞争中占据有力的位置,企业就要顺应时代发展的潮流,加强重视环境保护的理念,不断探寻出新能源电......
  • 《分布式任务调度平台XXL-JOB》
    文档地址https://www.xuxueli.com/xxl-job/中文文档EnglishDocumentation源码仓库地址源码仓库地址ReleaseDownloadhttps://github.com/xuxueli/xxl-jobDownloadhttp://gitee.com/xuxueli0323/xxl-jobDownload中央仓库地址<!--http://repo1.maven.org/......
  • Web组态可视化软件之BY组态可视化平台介绍
    Web组态可视化软件之BY组态可视化平台介绍关于组态软件,首先要从组态的概念开始说起。 什么是组态组态(Configure)的概念来自于20世纪70年代中期出现的第一代集散控制系统(DistributedControlSystem),可以理解为“配置”、“设定”、“设置”等,是指通过人机开发界面,用类似“搭积木......
  • Web组态可视化软件之BY组态可视化平台介绍
    关于组态软件,首先要从组态的概念开始说起。什么是组态组态(Configure)的概念来自于20世纪70年代中期出现的第一代集散控制系统(DistributedControlSystem),可以理解为“配置”、“设定”、“设置”等,是指通过人机开发界面,用类似“搭积木”的简单方式来搭建软件功能,而不需要编写计算机......
  • 直播平台搭建源码,bootstrap实现图片轮播效果
    直播平台搭建源码,bootstrap实现图片轮播效果<!DOCTYPEhtml><html><head>  <metacharset="UTF-8">  <title>设计轮播图效果</title>  <metaname="viewport"content="width=device-width,initial-scale=1,shrink-to-fit=......
  • 一个全平台、多机器的一键管理多语言开发环境的辅助开发工具【gvc】
    GVC是一个全平台、多机器的一键管理多语言开发环境的辅助开发工具。目前支持MacOS、Linux、Windows三大平台。使用GVC能够轻松帮你一键搭建Go、Python、Java、Nodejs、Rust、Cygwin等开发环境,你可以轻松管理某个开发语言的多个版本,也不用自己操心任何环境变量。此外,它还能轻松......
  • 高颜值在线绘图平台ImageGP系列教程 - 功能介绍
    在线平台BIC是ImageGP的重构升级版,重构于2020年初。该平台采用配置文件快速部署工具、生成结果或结果报告。其绘图和分析基于R语言(ImageGP包,在早期ImageGP脚本的基础上重新进行了封装,GitHub,Gitee)、Python语言。左侧导航目前包括:1.Professionalplotsinseconds;2.......
  • m基于matlab的AODV,leach自组网网络平台仿真,对比吞吐量,端到端时延,丢包率,剩余节点
    1.算法仿真效果matlab2022a仿真结果如下:     2.算法涉及理论知识概要       AODV是一种应用于无线网状网络的路由协议。它源节点需要发送数据时才进行路由发现。当没有数据发送请求时并不执行。在路由发现过程中首先检查路由表中是否存在从源节点到目的......