• 2024-05-1210分钟了解Flink SQL使用
    Flink是一个流处理和批处理统一的大数据框架,专门为高吞吐量和低延迟而设计。开发者可以使用SQL进行流批统一处理,大大简化了数据处理的复杂性。本文将介绍FlinkSQL的基本原理、使用方法、流批统一,并通过几个例子进行实践。1、FlinkSQL基本原理FlinkSQL建立在ApacheFlink之上
  • 2024-01-26分钟级实时数据分析的背后——实时湖仓产品解决方案
    随着信息技术的深入应用,企业对市场的响应速度也在不断提升,而且这种响应速度正在变得越来越快,没有最快只有更快。对数据实时性要求的提高,是眼下很多企业遇到的一个新的挑战。从生产侧的视角来看,系统实时监控与实时健康状态检测已成为确保系统稳定性和可靠性不可或缺的关键功能。它们
  • 2024-01-26分钟级实时数据分析的背后——实时湖仓产品解决方案
    随着信息技术的深入应用,企业对市场的响应速度也在不断提升,而且这种响应速度正在变得越来越快,没有最快只有更快。对数据实时性要求的提高,是眼下很多企业遇到的一个新的挑战。从生产侧的视角来看,系统实时监控与实时健康状态检测已成为确保系统稳定性和可靠性不可或缺的关键功能。它
  • 2024-01-14Apache Hudi在信息服务行业构建流批一体的实践
    个人介绍李昂高级数据研发工程师ApacheDoris&HudiContributor业务背景部门成立早期,为了应对业务的快速增长,数仓架构采用了最直接的Lambda架构对数据新鲜度要求不高的数据,采用离线数仓做维度建模,采用每小时调度binlog+每日主键归并的方式实现T+1数据更新对数
  • 2023-12-04构建满足流批数据质量监控用火山引擎DataLeap
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等
  • 2023-12-04构建满足流批数据质量监控用火山引擎DataLeap
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲
  • 2023-09-03flink教程:flink的有界、无界数据流、流批一体、容错能力等概念
    能否详细解释一下其中的数据流、流批一体、容错能力等概念?概述数据流:所有产生的数据都天然带有时间概念,把事件按照时间顺序排列起来,就形成了一个事件流,也被称作数据流。流批一体:首先必须先明白什么是有界数据和无界数据有界数据,就是在一个确定的时间范围内的数据流,有开始,
  • 2023-07-17补齐OLAP引擎短板!ByteHouse 是如何实现流批一体的?
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 计算机领域一直流传一句话——“没有银弹”,这句话出自计算机科学家布鲁克斯《没有银弹》一书,意思是软件工程是一个超级复杂系统,没有任何特效的方法,可以一直提高效率。 在数据库选
  • 2023-04-09大数据经典论文解读 - Kafka - 流批一体架构
    Kafka大数据系统架构是什么样?为什么需要Kafka这样的桥梁作为连接?Kafka的系统设计与传统MQ有什么不同?如何实现分布式?如何动态添加Broker并通知上下游?有了Kafka和Storm后如何搭建流式处理系统?如何处理故障带来地数据不准确?RealtimeDataProcessingatFacebook从应用
  • 2022-12-31Flink Shuffle 3.0: Vision, Roadmap and Progress
    摘要:本文整理自阿里云高级技术专家宋辛童(五藏),在FFA2022核心技术专场的分享。本篇内容主要分为五个部分:FlinkShuffle的演进流批融合云原生自适应Shuffle3.0一、Flin
  • 2022-12-31投入上百人、经历多次双 11,Flink 已经足够强大了吗?
    作者|Tina作为最活跃的大数据项目之一,Flink进入Apache软件基金会顶级项目已经有八年了。ApacheFlink是一款实时大数据分析引擎,同时支持流批执行模式,并与Hadoop生态可
  • 2022-12-12Flink 流批一体在小米的实践
    摘要:本文整理自小米软件开发工程师金风在FlinkForwardAsia2021流批一体专场的演讲。本篇内容主要分为三个部分:小米的大数据发展演变流批一体的平台建设流批一体应用场
  • 2022-11-10流批结合计算以及更多原生分析能力支持
    十月,eKuiper正式发布了1.7.0版本。这一版本引入了查询表和可更新Sink的概念,支持数据流与外部存储的数据一起计算,进一步完善了流批结合的实时计算能力。与此同时,我们改
  • 2022-10-27Arctic 基于 Hive 的流批一体实践
    背景随着大数据业务的发展,基于Hive的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失;另一方面Hudi,Iceberg这类系统在
  • 2022-10-10提供流批结合计算能力
    九月,​​eKuiper​​处于v1.7.0的开发周期中,开发团队和社区的伙伴共同完成了一系列的新功能。我们初步实现了LookupTable(查询表)的支持,从而完善了流批结合的运算能力,例