- 2024-09-14Flink Forward Asia 2024 议题征集令|探索实时计算新边界
简介:FlinkForwardAsia2024将于11月29日至30日在上海举行,现公开征集议题。作为ApacheFlink社区的重要年度活动,大会旨在汇集行业最佳实践和技术动态。议题覆盖流式湖仓、流批一体、Al大模型、生产实践等方向,并特别关注ApachePaimon和FlinkCDC等社区项目。所有议题将由专
- 2024-08-27Daph:新一代流批一体数据集成与数据处理工具
Daph源码位于gitee,地址是https://gitee.com/dasea96/daph概述Daph的中文名称是大副,大副是职位仅低于船长的船舶驾驶员,甲板部(驾驶部)负责人,船长的主要助手。Daph的英文名称,取自【有向无环图DirectedAcyclicGraph】的第一个字母与最后三个字母。Daph是一个通用的数据集成与数据
- 2024-08-12什么是流批一体?怎样理解流批一体?
目录一、流式处理与批量处理概述1.流式处理2.批量处理3.流批一体的定义二、流批一体的关键特点三、流批一体的技术实现四、应用场景五、实施流批一体的考虑因素流批一体听起来很简单,但内涵却十分复杂。它包含了计算语义、编程模型、API、调度、执行、shuffle等各个
- 2024-08-06Spark StructStreaming 流计算中的数据关联
SparkStructStreaming流计算中的数据关联在上一讲,我们提到,StructuredStreaming会复用SparkSQL所提供的一切数据处理能力,比如数据抽取、过滤、分组聚合、关联、排序,等等。不过,在这些常规的数据处理类型中,有一类操作需要我们特别关注,它就是数据关联(Joins)。这主要是出
- 2024-05-1210分钟了解Flink SQL使用
Flink是一个流处理和批处理统一的大数据框架,专门为高吞吐量和低延迟而设计。开发者可以使用SQL进行流批统一处理,大大简化了数据处理的复杂性。本文将介绍FlinkSQL的基本原理、使用方法、流批统一,并通过几个例子进行实践。1、FlinkSQL基本原理FlinkSQL建立在ApacheFlink之上
- 2024-01-26分钟级实时数据分析的背后——实时湖仓产品解决方案
随着信息技术的深入应用,企业对市场的响应速度也在不断提升,而且这种响应速度正在变得越来越快,没有最快只有更快。对数据实时性要求的提高,是眼下很多企业遇到的一个新的挑战。从生产侧的视角来看,系统实时监控与实时健康状态检测已成为确保系统稳定性和可靠性不可或缺的关键功能。它们
- 2024-01-26分钟级实时数据分析的背后——实时湖仓产品解决方案
随着信息技术的深入应用,企业对市场的响应速度也在不断提升,而且这种响应速度正在变得越来越快,没有最快只有更快。对数据实时性要求的提高,是眼下很多企业遇到的一个新的挑战。从生产侧的视角来看,系统实时监控与实时健康状态检测已成为确保系统稳定性和可靠性不可或缺的关键功能。它
- 2024-01-14Apache Hudi在信息服务行业构建流批一体的实践
个人介绍李昂高级数据研发工程师ApacheDoris&HudiContributor业务背景部门成立早期,为了应对业务的快速增长,数仓架构采用了最直接的Lambda架构对数据新鲜度要求不高的数据,采用离线数仓做维度建模,采用每小时调度binlog+每日主键归并的方式实现T+1数据更新对数
- 2023-12-04构建满足流批数据质量监控用火山引擎DataLeap
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等
- 2023-12-04构建满足流批数据质量监控用火山引擎DataLeap
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲
- 2023-09-03flink教程:flink的有界、无界数据流、流批一体、容错能力等概念
能否详细解释一下其中的数据流、流批一体、容错能力等概念?概述数据流:所有产生的数据都天然带有时间概念,把事件按照时间顺序排列起来,就形成了一个事件流,也被称作数据流。流批一体:首先必须先明白什么是有界数据和无界数据有界数据,就是在一个确定的时间范围内的数据流,有开始,
- 2023-07-17补齐OLAP引擎短板!ByteHouse 是如何实现流批一体的?
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 计算机领域一直流传一句话——“没有银弹”,这句话出自计算机科学家布鲁克斯《没有银弹》一书,意思是软件工程是一个超级复杂系统,没有任何特效的方法,可以一直提高效率。 在数据库选
- 2023-04-09大数据经典论文解读 - Kafka - 流批一体架构
Kafka大数据系统架构是什么样?为什么需要Kafka这样的桥梁作为连接?Kafka的系统设计与传统MQ有什么不同?如何实现分布式?如何动态添加Broker并通知上下游?有了Kafka和Storm后如何搭建流式处理系统?如何处理故障带来地数据不准确?RealtimeDataProcessingatFacebook从应用
- 2022-12-31Flink Shuffle 3.0: Vision, Roadmap and Progress
摘要:本文整理自阿里云高级技术专家宋辛童(五藏),在FFA2022核心技术专场的分享。本篇内容主要分为五个部分:FlinkShuffle的演进流批融合云原生自适应Shuffle3.0一、Flin
- 2022-12-31投入上百人、经历多次双 11,Flink 已经足够强大了吗?
作者|Tina作为最活跃的大数据项目之一,Flink进入Apache软件基金会顶级项目已经有八年了。ApacheFlink是一款实时大数据分析引擎,同时支持流批执行模式,并与Hadoop生态可
- 2022-12-12Flink 流批一体在小米的实践
摘要:本文整理自小米软件开发工程师金风在FlinkForwardAsia2021流批一体专场的演讲。本篇内容主要分为三个部分:小米的大数据发展演变流批一体的平台建设流批一体应用场
- 2022-11-10流批结合计算以及更多原生分析能力支持
十月,eKuiper正式发布了1.7.0版本。这一版本引入了查询表和可更新Sink的概念,支持数据流与外部存储的数据一起计算,进一步完善了流批结合的实时计算能力。与此同时,我们改
- 2022-10-27Arctic 基于 Hive 的流批一体实践
背景随着大数据业务的发展,基于Hive的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失;另一方面Hudi,Iceberg这类系统在
- 2022-10-10提供流批结合计算能力
九月,eKuiper处于v1.7.0的开发周期中,开发团队和社区的伙伴共同完成了一系列的新功能。我们初步实现了LookupTable(查询表)的支持,从而完善了流批结合的运算能力,例