首页 > 其他分享 >火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅵ)

火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅵ)

时间:2023-04-29 12:07:40浏览次数:43  
标签:cn 数据仓库 白皮书 V1.0 ByteHouse article 数据 xie

  更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

近日,《火山引擎云原生数据仓库 ByteHouse 技术白皮书》正式发布。白皮书简述了 ByteHouse 基于 ClickHouse 引擎的发展历程,首次详细展现 ByteHouse 的整体架构设计及自研核心技术,为云原生数据仓库发展,及企业数字化转型实战运用提供最新的参考和启迪。

以下为 ByteHouse 技术白皮书【核心技术解析——元数据】版块摘录。

技术白皮书(Ⅰ)(Ⅱ)(Ⅲ)(Ⅳ)(Ⅴ)精彩回顾:

https://xie.infoq.cn/article/5c9471c7adb58e4bb43b69c4d

https://xie.infoq.cn/article/086b4e706965a6bd81f6a6ff2

https://xie.infoq.cn/article/a0dceef1588fe6c58247d3b37

https://xie.infoq.cn/article/9802a36beb0e82fd989991011

https://xie.infoq.cn/article/af5fc530f0d2ce7cbb8cefe5f

核心技术解析

元数据管理

元数据管理(Catalog Service)的功能主要是对读写请求的元数据进行读写操作。元数据服务是一个非常关键的服务,需要保证其自身的高可用和元数据的一致性,元数据服务的扩展性影响整个平台的扩展性,此外元数据读写的性能也影响整个读写过程的性能。

元数据管理需要重点考虑下面几个方面的问题,元数据的持久化,和利用缓存对元数据层的加速。

元数据持久化

元数据的持久化,可以有很多不同的存储后端可供选择,例如 KV 型数据库,传统数据库,New SQL。经过综合考虑,最后决定选择 KV 数据库,目前采用字节内部产品 ByteKV,外部开源的 FoundationDB 也是其他产品常见选择。

对于 KV 数据库里面需要存储的元数据信息主要有版本、统计信息、事务信息、数据的 Schema、Partition 信息、Part 的信息等。

元数据缓存

由于我们将 Part 级元数据存储在 ByteKV 中,因此在查询大数据范围时,是 KV 数据库的 Scan 操作,获取 Part 元数据的时间较长,且给 ByteKV 带来很重的负担。因此通过增加一个缓存层提高性能、降低负载。

因为 Insert/Select 语句会在任意的 Coordinator 节点上执行,为保证 Read-Commited 语义,需要确保不同 Coordinator 进程间一致的 元数据读取,采用

  1. Leader Selection 机制保证唯一的 Master
  2. Master 维护全局一致的拓扑图
  3. 所有 Coordinator 采用相同的选主机制保证每一张表有唯一的主节点
  4. 表的主节点维持 Cache 的有效性

点击链接,立即下载完整版白皮书

标签:cn,数据仓库,白皮书,V1.0,ByteHouse,article,数据,xie
From: https://blog.51cto.com/bytedata/6236685

相关文章

  • 火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅵ)
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数据......
  • HummerRisk V1.0 安装部署指南
    HummerRiskv1.0开始采用springcloud微服务架构,微服务架构更加易于扩展、易于容错、灵活部署,但是需要注意的是HummerRiskv0.x版本无法直接升级到v1.0,如需使用HummerRisk请手动安装最新版本。环境要求全新安装的Linux(x64)需要连接互联网使用root用户执行1.操作系统版......
  • 高性能、快响应!火山引擎 ByteHouse 物化视图功能及入门介绍
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群物化视图是指将视图的计算结果存储在数据库中的一种技术。当用户执行查询时,数据库会直接从已经预计算好的结果中获取数据,而不需要重新计算视图。具体来说,物化视图是一种以表格形式存储的结果......
  • SQL Server仓储物流公司visual studio发货数据仓库设计
    全文链接:http://tecdat.cn/?p=32241原文出处:拓端数据部落公众号分析师:YanlinLi仓储物流是货物生产销售的重要环节。随着贸易自由化和电子商务的兴起,物流企业快速发展,为提高仓库管理效率,发掘更多的仓库供应商客户,合理配置资源并降低经营成本,经营者在制定经营决策时需要分析仓储......
  • 火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅴ)
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数据仓......
  • 火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅳ)
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数......
  • 浪潮信息等企业评审通过OTII-E模块化服务器技术规范V1.0
    ■■ 近期,ODCC服务器工作组组织线上评审会议,评审通过了《OTII-E模块化服务器技术规范V1.0》。评审会议上,浪潮信息、英特尔、中国信通院等相关单位的近50位专家参与了在线评审,深入讨论目前OTII系列标准发展的关键问题、行业价值和发展方向。OTII-E是OTII系列标准中的最新技术规范,将......
  • 火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅲ)
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数据......
  • 火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0 (Ⅲ)
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,《火山引擎云原生数据仓库ByteHouse技术白皮书》正式发布。白皮书简述了ByteHouse基于ClickHouse引擎的发展历程,首次详细展现ByteHouse的整体架构设计及自研核心技术,为云原生数......
  • 什么是数据仓库
     定义数据仓库是一个用于存储和管理企业数据的集中式数据存储系统,用于支持企业决策和分析活动。它是一个专门的数据存储区域,用于将来自多个数据源的数据集成在一起,并通过预处理、转换和清洗等操作,将其转换为易于分析和查询的格式。通常,数据仓库采用面向主题的数据模型,即将同......