基于flink+hudi湖仓一体技术架构,实现在线视频行业的实时数据处理与分析。
项目采用流处理计算引擎Flink,实时处理千万条数据量的视频数据,基于FlinkCDC完成MYSQL等数据源的数据采集,通过hudi on hive 建构湖仓一体架构,解决数据湖的局限性。(数据湖虽然适合存储数据,但缺少一些关键功能:它们不支持事务处理,不保证数据质量,并且缺乏一致性/隔离性,从而几乎无法实现混合追加和读取数据,以及完成批处理和流式作业。)用于数据湖的低成本存储上实现数据管理功能。
项目采用hive实现离线数据计算,FlinkSQL实现实时数据计算,使用流行OLAP的clickHouse进行海量多维分析,最终实现在线视频实时分析指标体系的构建。
项目数据源包括:流量日志,行为日志,业务数据
数据传输:kafka,flume,sqoop,canal
存储层:hadoop HDFS UCloud对象存储US3
计算层:YARN分布式资源调度集群 spark,flink,mr,hive
资源基于云平台