首页 > 其他分享 >消息推送平台的实时数仓?!flink消费kafka消息入到hive

消息推送平台的实时数仓?!flink消费kafka消息入到hive

时间:2023-05-10 21:46:27浏览次数:38  
标签:数仓 austin flink jar hadoop hive 数据

大家好,3y啊。好些天没更新了,并没有偷懒,只不过一直在安装环境,差点都想放弃了。

上一次比较大的更新是做了austin的预览地址,把企业微信的应用和机器人消息各种的消息类型和功能给完善了。上一篇文章也提到了,austin常规的功能已经更新得差不多了,剩下的就是各种细节的完善。

不知道大家还记不记得我当时规划austin时,所画出的架构图:

现在就剩下austin-datahouse这个模块没有实现了,也有挺多同学在看代码的时候问过我这个模块在哪...其实就是还没实现,先规划,牛逼先吹出去(互联网人必备技能)

消息推送平台

标签:数仓,austin,flink,jar,hadoop,hive,数据
From: https://www.cnblogs.com/Java3y/p/17389417.html

相关文章

  • 启动flink sql 任务
    README.md#howtouse#使用说明##确认是否初始化完成,当前yarn-session管理所有《用户属性任务》##任务名称为:bus_user_info_flinkjobpath=`pwd`00.确认是否已经存在yarnsession`shellyarnapp-list|grepapp_log_2_hudi_flinkJob`1.若未运行yarn......
  • flink中的Keyed State
    Keyedstate是指在Flink中与一个特定key相关联的状态。在Flink中,数据被分区并按key分组。当数据流被分区和分组后,每个key都有一个对应的状态,这就是Keyedstate。它可以用于计算窗口、聚合操作和连续查询等。Keyedstate通常用于在流处理中跟踪关键得分、计数或其他与特定数据点相......
  • 启动flink显示ERROR: JAVA_HOME is not set and could not be found.
    问题:JAVA_HOME存在,但启动flink时出现ERROR:JAVA_HOMEisnotsetandcouldnotbefound.原因:环境变量加载顺序不对#/etc/profile.d/hadoop.sh#...exportHADOOP_CLASSPATH=`hadoopclasspath`JAVA_HOME是在java.sh里定义的,而hadoop.sh按照字典序先于java.sh加......
  • Hive3安装
    Hive3安装Mysql安装卸载Centos7自带的mariadb[root@node3~]#rpm-qa|grepmariadbmariadb-libs-5.5.64-1.el7.x86_64[root@node3~]#rpm-emariadb-libs-5.5.64-1.el7.x86_64--nodeps[root@node3~]#rpm-qa|grepmariadb[root@nod......
  • flink Connecting to remote task manager 'localhost/127.0.0.1:44489
    问题:启动集群后,执行任务时失败:Causedby:org.apache.flink.runtime.io.network.partition.consumer.PartitionConnectionException:Connectionforpartition47d4a412246bdbbc3447e1968e07c821#1@04049d45261135a1a8bae9c8f62a1ba4_0a448493b4782967b150582570326227_1_0not......
  • 【大数据】Hive Join 的原理与机制
    目录一、概述二、环境准备三、HiveJOIN类型四、Map,Shuffle,Reduce三阶段1)Map阶段2)Shuffle阶段3)Reduce阶段五、CommonJoin(Reduce阶段)六、MapJoin(Map阶段)一、概述Hive是一个基于Hadoop的数据仓库解决方案,它提供了类似于SQL的查询语言,称为HiveQL,用于处理结构化数据。在Hive中......
  • Flink Chain任务链分隔
    Chain分隔文章目录Chain分隔如何切断任务链?startNewChain与disableChaining区别全局切断任务链(chain)web端效果查看隔离后依赖链忙碌程度什么是Backpressured(被压/反压)?代码样例参考文献如何切断任务链?由于共享slot的存在,当一个任务链的计算量特别庞大时,且只在一个slot上执行......
  • 基于Hadoop3.1.3安装Hive3.1.2
    Hive是什么?\tHive是一个基于Hadoop的数据仓库工具,它提供了类似SQL的查询语言HQL(HiveQueryLanguage),使得开发人员可以使用类SQL语言来查询和处理存储在大规模分布式文件系统(如HDFS)中的数据。Hive有哪些功能?Hive的主要功能包括数据存储、查询和分析等。通过将SQL......
  • 数仓建模规范--非常全
    数仓开发规范 一.数据模型架构原则 1.数仓分层原则优秀可靠的数仓体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲数仓要分层,那数仓分几层最好?目前市场上主流的分层方式眼花缭乱,不过看事情不能只看表......
  • Flink Cdc MySQL 整库同步到 StarRocks
    这段时间开始调研使用StarRocks做准实时数据仓库:flinkcdc实时同步数据到StarRocks,然后在StarRocks中做分层计算,直接把StarRocks中的ADS层提供给BI查询。架构如下:由于用到的表比较多,不能用FlinkSQL给每个表都做个CDC的任务(任务太多不好维护、对数据库又可能有......