首页 > 其他分享 >补齐OLAP引擎短板!ByteHouse 是如何实现流批一体的?

补齐OLAP引擎短板!ByteHouse 是如何实现流批一体的?

时间:2023-07-17 15:35:30浏览次数:37  
标签:离线 实时 OLAP 引擎 ByteHouse 流批 数据

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
  计算机领域一直流传一句话——“没有银弹”,这句话出自计算机科学家布鲁克斯《没有银弹》一书,意思是软件工程是一个超级复杂系统,没有任何特效的方法,可以一直提高效率。   在数据库选型当中也是如此。一款面向实时查询场景的计算引擎,在离线场景的表现可能会稍显逊色。   以某内容APP对OLAP引擎选型为例。该内容APP基于OLAP引擎构建了支持全公司的数据平台,覆盖业务线多、复杂度高,对数据分析的要求也非常高。在APP的直播场景中,主播、商家需要直播间核心实时数据,在直播过程中依据数据做相关决策,比如在流量下降时投流、发福袋等。而OLAP引擎具备高性能、时效性强、弹性扩容的特点,能满足实时查询的诉求,成为该内容APP对计算引擎的首选。   但在一些不需要实时数据的场景中,例如内容APP日报、周报、月报等数据,往往是T+1时间产出,OLAP引擎就很难满足需求,反而需要再搭配Spark、Hive、MapReduce等批处理平台共同使用。   一方面,这样的组合方案会导致数据链路复杂,操作成本高。为了保证OLAP引擎和其他批处理平台的数据一致性, 研发团队要建立稳定的数据同步管道,这将增加开发成本,造成系统复杂度高,对日常运维和故障排查带来难题。另一方面,两者都需要占用一定的计算和存储资源,导致资源消耗较大,同时也会造成数据延迟。   近期,火山引擎云原生数据仓库ByteHouse上线的“离线加工”能力则一举解决这一问题。   ByteHouse 云数仓版一直具备强大的实时数据消费能力,通过设计新的实时消费执行流程、实现 Exactly—Once 语义以及对 Memory buffer 的优化,ByteHouse 具备了对 Kafka 流数据的集成能力。   据介绍,ByteHouse 在云数仓版的全新版本中支持了完整的离线加工能力,使得作为轻载数仓的 ByteHouse能同时兼顾实时数据的查询效率和离线加工任务的稳定性,大大降低运维压力,简化数据开发链路,为用户提供更优越的企业级数仓体验。   性能、效率、成本在行业中一直被认为是“不可能三角”,如果用户将ByteHouse作为统一的数据分析平台,则可以最大程度实现性能、效率、成本的“三赢”。   ByteHouse“离线加工”能力架构图   从性能层面来看,作为高性能的列式数据库,ByteHouse的查询引擎和聚合能力能提升离线计算速度,帮助用户更快进行离线数据处理、聚合和转换,缩短任务执行时间,提高数据处理效率。   从效率层面来看,ByteHouse将实时查询、交互式分析与离线数据加工的处理流程整合在同一个平台,不仅仅能保证数据的一致性和准确性,避免数据在系统流转中出现不一致的问题,还可以简化数据处理架构,研发人员不再需要维护和管理多个工具、系统。另外,ByteHouse使用SQL作为查询语言,研发人员可以利用熟悉的SQL语法进行数据查询、聚合和转换操作,无需学习新的编程语言或框架。   从成本层面来看,ByteHouse的列式存储和压缩算法在提升查询速度、缩短响应时间的同时,还可以减少数据存储的占用空间,降低存储成本。   随着数据分析和计算的场景愈多,链路愈加复杂,企业更需要统一的平台、简单的架构、便捷的运维,才能支撑业务快速发展。ByteHouse不仅专注于强化实时计算能力,还补齐了离线任务加工场景,通过结合任务编排和开发工具,支持复杂的 ETL 处理流程,适用于企业用户行为分析、人群圈选、风控等更丰富的场景。   此次“离线加工”新能力的发布,仅仅只是ByteHouse产品迭代版图上的一环。作为源于字节跳动多年积累的云原生数据仓库,ByteHouse不断提升用户体验,帮助企业更好地构建交互式大数据分析平台和云原生数据仓库。目前,中国地震台网中心、海王集团等已与火山引擎ByteHouse达成合作,率先通过海量数据实时分析的极速体验,辅助决策落地,加速业务洞察,实现自身数字化升级的进一步加速。     点击跳转火山引擎ByteHouse了解更多      

标签:离线,实时,OLAP,引擎,ByteHouse,流批,数据
From: https://www.cnblogs.com/bytedata/p/17560250.html

相关文章

  • 多领域应用落地,火山引擎ByteHouse加速云数仓升级
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,火山引擎数智平台VeDI直播活动「超话数据」在线举办,来自火山引擎的产品及解决方案专家分享了以ByteHouse为代表的云数仓产品在字节跳动的演进过程、关键技术以及最佳实践,并通过......
  • 国产开源流批统一的数据同步工具Chunjun入门实战
    @目录概述定义特性部署安装版本对应关系通用配置详解整体配置Content配置Setting配置Local提交Standalone提交Json方式使用SQL方式使用MySQLSinkKafkaSink概述定义Chunjun官网https://dtstack.github.io/chunjun-web/源码release最新版本1.12.8Chunjun文档地址http......
  • 【大数据OLAP技术新书推荐】 字节跳动、阿里巴巴大厂资深架构师程序员多年实践经验总
    ClickHouse领域集大成之作-ClickHouse入门进阶实战的标准参考书-日常工作案头必备!如果需要购买阅读的话,可以点击:https://item.jd.com/10077635610807.html目录《ClickHouse入门、实战与进阶》简介图书评价作者简介内容简介为何写作本书本书主要特点如何阅读本书致谢全书目......
  • 火山引擎数智平台最新直播活动:ByteHouse技术架构与最佳实践分享
    数据的时效性,正深刻影响着企业的发展。以大型半导体制造厂商为例,不同于常规工厂生产流水线,半导体制造通用的无人实验室生产模式高度依赖机械臂作业,且对整个生产调度链路中的精密度要求非常高,这背后主要依靠MES(ManufacturingExecutionSystem,制造执行系统)完成。因此,MES系统数据推......
  • 火山引擎数智平台最新直播活动:ByteHouse技术架构与最佳实践分享
    数据的时效性,正深刻影响着企业的发展。 以大型半导体制造厂商为例,不同于常规工厂生产流水线,半导体制造通用的无人实验室生产模式高度依赖机械臂作业,且对整个生产调度链路中的精密度要求非常高,这背后主要依靠MES(ManufacturingExecutionSystem,制造执行系统)完成。 因此,MES......
  • 干货|开源OLAP引擎(ClickHouse、Doris、Presto、ByConity)性能对比分析
    随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。 因此,本文将使用TPC-DS基准测试的99个查询语句来对比开源的ClickHouse、Doris、Presto以及ByConity这4个OLAP引......
  • 浅谈 ByteHouse Projection 优化实践
    预聚合是OLAP系统中常用的一种优化手段,在通过在加载数据时就进行部分聚合计算,生成聚合后的中间表或视图,从而在查询时直接使用这些预先计算好的聚合结果,提高查询性能,实现这种预聚合方法大多都使用物化视图来实现。Clickhouse社区实现的Projection功能类似于物化视图,原始的概念......
  • ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析
    引言:随着数据量和数据复杂性的不断增加,越来越多的企业开始使用OLAP(联机分析处理)引擎来处理大规模数据并提供即时分析结果。在选择OLAP引擎时,性能是一个非常重要的因素。因此,本文将使用TPC-DS基准测试的99个查询语句来对比开源的ClickHouse、Doris、Presto以及ByConity这4个OLAP......
  • 莉莉丝游戏与火山引擎 ByteHouse 达成合作,为实时数仓建设提速
    中国头部游戏公司莉莉丝游戏(Lilith)和火山引擎ByteHouse达成合作,共同致力于加速莉莉丝游戏的实时数仓建设。此次合作将利用ByteHouse的创新技术和功能,为广告运营分析业务提效提供全面支持和帮助。莉莉丝游戏是中国中生代游戏公司代表,在中国游戏市场保持领先地位。为了支持其日......
  • (转)OLAP 任务的并发执行与调度
     本文以SQL查询为基础,在关系模型的执行方案下讨论了分布式/并行OLAP任务执行的基本模型和经典方案,并且涵盖了一些最新研究(如动态调整技术)的介绍。主要策略:DataLocality、WorkingStealing、DelayStealing、慢任务异地重试等。 万变不离其宗,这些策略与分布式系统中的任务......