首页 > 其他分享 >如何实现数据流畅转换?火山引擎ByteHouse推出ELT能力

如何实现数据流畅转换?火山引擎ByteHouse推出ELT能力

时间:2023-09-11 15:04:40浏览次数:40  
标签:队列 用户 查询 引擎 ELT ByteHouse ETL

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

在数据分析场景中,企业使用的数据通常具备来源多样化的特点,如支付交易记录、用户行为等,且数据格式各异,有的为行式存储结构,有的为列式存储结构。这就要求企业数仓具备一定的数据转换能力。


传统方式是采用Extract-Transform-Load (ETL)来将业务数据转换为适合数仓的数据模型,然而,这依赖于独立于数仓外的ETL系统,导致维护成本较高。但随着云计算时代的到来,云数据仓库具备更强扩展性和计算能力,也要求改变传统的ELT流程。


火山引擎ByteHouse是一款基于开源ClickHouse推出的云原生数据仓库,为用户提供极速分析体验,能够支撑实时数据分析和海量数据离线分析,同时还具备便捷的弹性扩缩容能力,极致分析性能和丰富的企业级特性。凭借其强大的计算能力,火山引擎ByteHouse目前已全面支持Extract-Load-Transform (ELT)的能力,让用户免于维护多套异构系统,产品易用性实现飞跃。


如何实现数据流畅转换?火山引擎ByteHouse推出ELT能力_数据转换


通过ByteHouse的ELT能力,用户只需将数据导入,用自定义SQL语句在ByteHouse内部进行数据转换,无需依赖独立的ETL系统及资源。具体来说,ByteHouse主要通过以下三个能力实现ELT能力:


首先,长任务管理。ByteHouse的查询时间为秒级,一旦查询中出故障,系统会直接返回错误并重试。在ETL场景下,如果一个任务已经执行50分钟才发生故障,重试意味着浪费了前50分钟的资源,影响任务推进。在ByteHouse中,SQL查询会被转化为一系列的算子,研发团队则通过提升算子的容错能力,来应对长时间查询下的系统故障问题,即当某个算子无法获得足够的内存时,系统允许该算子将一部分数据缓存在磁盘上,保证在资源紧张的情况下仍能够完成工作。


其次,异步提交能力。面对大量长耗时的ETL任务时,传统的同步执行方式需要客户端等待服务端返回,容易出现超时问题,影响后续任务执行,而ByteHouse提供的异步提交能力,通过客户端的间歇性轮训来获得用户任务的最终状态,由此保障任务在规定时间内完成。


最后,查询队列。当面临大量离线加工请求时,系统会出现超载。ByteHouse为此提供了查询队列能力,允许用户从队列大小、总CPU占用率、总内存占用率三个维度定义一个队列。


具体来说,当用户向某队列提交查询时,ByteHouse可以通过组件监听各个队列中的查询指标,如果队列未达到上限,则会将查询入队,否则拒绝。除此之外,ByteHouse还会检查队列的资源利用率,当空闲资源高过某阈值时,自动将等待中的查询出队。利用查询队列,用户在编排ETL任务时无需担心底层资源过载,让开发更加便捷。


长任务管理、异步提交和查询队列是火山引擎ByteHouse ELT的核心能力。未来,ByteHouse也会进一步迭代,支持转换函数、长任务容错、优先级队列等更丰富ELT功能,为用户提供更极致、更便捷的使用体验。


点击跳转火山引擎ByteHouse了解更多



标签:队列,用户,查询,引擎,ELT,ByteHouse,ETL
From: https://blog.51cto.com/bytedata/7435951

相关文章

  • 火山引擎DataLeap的数据血缘用例与设计概述
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群数据血缘描述了数据的来源和去向,以及数据在多个处理过程中的转换。数据血缘是组织内使数据发挥价值的重要基础能力。本文从字节的数据链路概况开始,介绍了数据血缘在字节的应用场景,总体设计,数据模......
  • 火山引擎DataLeap的数据血缘用例与设计概述
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据血缘描述了数据的来源和去向,以及数据在多个处理过程中的转换。数据血缘是组织内使数据发挥价值的重要基础能力。本文从字节的数据链路概况开始,介绍了数据血缘在字节的应用场景,总......
  • 汽车3D HMI图形引擎选择
    汽车3DHMI图形引擎选择向治洪在知乎工程师​关注他  2002年,电影《少数派报告》让观众深入了解未来。除了情节的核心道德困境之外,大多数人都对它的技术着迷。我们看到了自动驾驶汽车、个性化广告和用户可以无缝交互的3D计算机界面。令人惊讶的是,虽......
  • Boost搜索引擎
    项目背景先说一下什么是搜索引擎,很简单,就是我们平常使用的百度,我们把自己想要所有的内容输入进去,百度给我们返回相关的内容.百度一般给我们返回哪些内容呢?这里很简单,我们先来看一下.搜索引擎基本原理这里我们简单的说一下我们的搜索引擎的基本原理.我们给服务器发起请求......
  • 构建高性能全文搜索引擎:Java与Elasticsearch
    在今天的应用程序中,全文搜索功能变得越来越重要。无论是在线商店、博客网站还是企业应用,用户都希望快速而准确地找到他们需要的信息。Elasticsearch是一个强大的全文搜索引擎,可以轻松应对这一需求。本文将向你展示如何使用Java与Elasticsearch构建高性能的全文搜索引擎。什么是Elas......
  • MySQL事务及常见存储引擎
    一、事务的四特性事务:transaction一个数据库事务由一条或者多条可发生事务的SQL语句构成,它们形成一个逻辑的工作单元。这些SQL语句要么全部执行成功,要么全部执行失败 原子性(Atomicity)A   事务的原子性是指事务中包含的所有操作要么完成(提交),要么不做(回滚),也就是说所有的活动......
  • 表单引擎的自定义控件的概念与设计
    基本概念概述控件的定义:用于展示或者采集数据的表单元素,称为控件,比如:文本框、下拉框、单选按钮、从表等.自定义控件:表单引擎提供的基础控件之外的控件称为自定义控件,这些控件由开发人员自己定义,比如:评分、公文字号、定位等.基本控件分类字段控件:文本字段、数值字段、日期字段、......
  • 网站优化搜索引擎与关键词
    网站优化搜索引擎与关键词人们不应该高估搜索引擎的智商。这不利于seo的研究,事实上,搜索引擎是非常愚蠢的,让我们举一个非常简单的例子,你在搜索引擎中输入“教师”这个词,搜索引擎就会给出一个准确的搜索列表。我们不会给出“教师”一词的检索信息,但我们认为,“教师”和“教师”的含义......
  • ClickHouse Kafka引擎
    转:https://blog.csdn.net/qq_28603127/article/details/109556177Kafka引擎用力读取kafka中的数据,创建表语句CREATETABLE[IFNOTEXISTS][db.]table_name[ONCLUSTERcluster](name1[type1][DEFAULT|MATERIALIZED|ALIASexpr1],name2[type2][DEFAULT|MATER......
  • 火山引擎 DataTester 首推A/B实验经验库,帮助企业高效优化实验设计能力
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,火山引擎DataTester推出了重要功能——A/B实验经验库。基于在字节跳动已完成150万余次A/B实验的经验,DataTester首创了A/B实验经验库功能。该功能可帮助业务人员将历史的A/B实验经......