首页 > 其他分享 >火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术

火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术

时间:2023-09-12 14:06:03浏览次数:42  
标签:MaterializedMySQL 导入 OLAP 引擎 ByteHouse 数据 ClickHouse


更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

数据导入是衡量 OLAP 引擎性能及易用性的重要标准之一,高效的数据导入能力能够加速数据实时处理和分析的效率。

作为一款 OLAP 引擎,火山引擎云原生数据仓库 ByteHouse 源于开源 ClickHouse,在字节跳动多年打磨下,提供更丰富的能力和更强性能,能为用户带来极速分析体验,支撑实时数据分析和海量离线数据分析,具备便捷的弹性扩缩容能力,极致的分析性能和丰富的企业级特性。

随着 ByteHouse 内外部用户规模不断扩大, 越来越多用户对数据导入提出更高的要求,这也为 ByteHouse 的数据导入能力带来了更大的挑战。

从字节跳动内部来看,ByteHouse 主要还是以 Kafka 为实时导入的主要数据源。对于大部分内部用户而言,其数据体量偏大,用户更看重数据导入的性能、服务的稳定性以及导入能力的可扩展性。在数据延时性方面,用户的需求一般为秒级左右。

基于以上场景和需求,ByteHouse 也进行了一系列定制性优化,主要包括两个方面,第一为 MaterializedMySQL 增强;第二个是 HaKafka 引擎。

社区版 ClickHouse 推出了 MaterializedMySQL 数据库引擎,用于将 MySQL 中的表映射到 ClickHouse 中。ClickHouse 服务作为 MySQL 副本,读取 Binlog 并执行 DDL 和 DML 请求,实现了基于 MySQL Binlog 机制的业务数据库实时同步功能。这样不依赖其他数据同步工具,就能将 MySQL 整库数据实时同步到 ClickHouse,从而能基于 ClickHouse 构建实时数据仓库。

而 HaKafka 引擎则是 ByteHouse 推出的一种特殊的表引擎,主要基于 ClickHouse 社区的 Kafka engine 进行了优化。用户可以通过一个 Kafka 消费表、分布式存储表、物化视图表,三元组实现数据消费、数据转换、数据写入功能。

9 月 16 日 14:00,火山引擎开发者社区与超话数据联合举办的线下沙龙,将邀请到火山引擎 ByteHouse 产品专家围绕《基于 ByteHouse 引擎的增强型数据导入技术实践》展开分享,为大家揭秘 MaterializedMySQL 和 HaKafka 的设计原理和技术实现,教你如何更好在 OLAP 引擎中完成高性能、高易用性的数据导入。

演讲主题:

《基于 ByteHouse 引擎的增强型数据导入技术实践》

主要内容:

  • ByteHouse 数据库架构演进
  • 增强 HaKafka 引擎实现方案
  • 增强 MaterializedMySQL 实现方案
  • 案例实践与未来展望

听众受益:

  • 了解 Bytehouse 基于引擎层数据导入能力
  • MaterializedMySQL 和 HaKafka 在业务中的实践

立即报名,赢取好礼:https://developer.volcengine.com/activities/7269017295253733439?utm_campaign=20230916&utm_cnotallow=vedi&utm_medium=os_todwebsite_nocontact&utm_source=community&utm_term=meetup12

火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术_活动

点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多


标签:MaterializedMySQL,导入,OLAP,引擎,ByteHouse,数据,ClickHouse
From: https://blog.51cto.com/bytedata/7444988

相关文章

  • 火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据导入是衡量OLAP引擎性能及易用性的重要标准之一,高效的数据导入能力能够加速数据实时处理和分析的效率。 作为一款OLAP引擎,火山引擎云原生数据仓库ByteHouse源于开源C......
  • 网站优化搜索引擎与关键词
    网站优化搜索引擎与关键词人们不应该高估搜索引擎的智商。这不利于seo的研究,事实上,搜索引擎是非常愚蠢的,让我们举一个非常简单的例子,你在搜索引擎中输入“教师”这个词,搜索引擎就会给出一个准确的搜索列表。我们不会给出“教师”一词的检索信息,但我们认为,“教师”和“教师”的含义......
  • 网站优化搜索引擎与关键词
    网站优化搜索引擎与关键词人们不应该高估搜索引擎的智商。这不利于seo的研究,事实上,搜索引擎是非常愚蠢的,让我们举一个非常简单的例子,你在搜索引擎中输入“教师”这个词,搜索引擎就会给出一个准确的搜索列表。我们不会给出“教师”一词的检索信息,但我们认为,“教师”和“教师”的含义......
  • 中企出海,用火山引擎DataTester开启增长第一步
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群今年Google宣布其提供的A/B测试工具Optimize将在2023年9月30号停止服务。在全球化浪潮席卷下,越来越多的中国企业正在加速走向全球市场,要在出海业务中实现降本增效,只依赖人为经验远远不够,不断......
  • 如何实现数据流畅转换?火山引擎ByteHouse推出ELT能力
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群在数据分析场景中,企业使用的数据通常具备来源多样化的特点,如支付交易记录、用户行为等,且数据格式各异,有的为行式存储结构,有的为列式存储结构。这就要求企业数仓具备一定的数据转换能力。传统方式......
  • 火山引擎DataLeap的数据血缘用例与设计概述
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群数据血缘描述了数据的来源和去向,以及数据在多个处理过程中的转换。数据血缘是组织内使数据发挥价值的重要基础能力。本文从字节的数据链路概况开始,介绍了数据血缘在字节的应用场景,总体设计,数据模......
  • 火山引擎DataLeap的数据血缘用例与设计概述
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据血缘描述了数据的来源和去向,以及数据在多个处理过程中的转换。数据血缘是组织内使数据发挥价值的重要基础能力。本文从字节的数据链路概况开始,介绍了数据血缘在字节的应用场景,总......
  • 汽车3D HMI图形引擎选择
    汽车3DHMI图形引擎选择向治洪在知乎工程师​关注他  2002年,电影《少数派报告》让观众深入了解未来。除了情节的核心道德困境之外,大多数人都对它的技术着迷。我们看到了自动驾驶汽车、个性化广告和用户可以无缝交互的3D计算机界面。令人惊讶的是,虽......
  • Boost搜索引擎
    项目背景先说一下什么是搜索引擎,很简单,就是我们平常使用的百度,我们把自己想要所有的内容输入进去,百度给我们返回相关的内容.百度一般给我们返回哪些内容呢?这里很简单,我们先来看一下.搜索引擎基本原理这里我们简单的说一下我们的搜索引擎的基本原理.我们给服务器发起请求......
  • 构建高性能全文搜索引擎:Java与Elasticsearch
    在今天的应用程序中,全文搜索功能变得越来越重要。无论是在线商店、博客网站还是企业应用,用户都希望快速而准确地找到他们需要的信息。Elasticsearch是一个强大的全文搜索引擎,可以轻松应对这一需求。本文将向你展示如何使用Java与Elasticsearch构建高性能的全文搜索引擎。什么是Elas......