首页 > 其他分享 >线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘

线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘

时间:2023-09-26 11:33:24浏览次数:42  
标签:数智化 研发 Meetup 火山 引擎 ByteHouse 数据 VeDI LAS

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群


近日,联合火山引擎开发者社区,火山引擎数智平台(VeDI)《数智化转型背景下的火山引擎大数据技术揭秘》主题Meetup暨超话数据特别场正式在深圳举办,邀请到了Datasail、DataLeap、 ByteHouse、EMR、LAS等多条数智平台(VeDI)产品线的专家带来大数据技术干货分享。

线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘_数据安全


如今各个企业面临的是更变幻莫测的市场、更复杂的内部架构、更进退失据的现状。在这种现状下,各个企业如何顺利的完成数字化转型?


今年4月上海举办的春季 FORCE 原动力大会上,火山引擎正式提出了“数据飞轮”的数字化建设模式,获得了业界广泛关注。火山引擎数据飞轮是企业数智化升级的新范式,基于对字节跳动十余年数据驱动实践经验的提炼,以数据消费为核心驱动力,使企业数据流充分融入业务流,实现数据资产的业务应用的飞轮效应。其中数据资产轮的理念是在被频繁数据消费的推动下,变得更高质量、更低成本、更快响应的支撑业务应用。


这里涉及资产丰富、质量优化、研发提效三个核心齿轮:

  • 资产丰富:数据消费推动更丰富的数据资产融合统一的建设
  • 质量优化:数据消费推动数据资产建设治理具备更高的质量
  • 研发提效:数据基础建设过程中的成本优化和效率提升


全域数据集成 DataSail是火山引擎数智平台下数据采集和同步引擎,支持全场景异构数据源集成,助力企业数据资产融合统一建设,本次活动上火山引擎DataSail高级研发工程师李延加分享了DataSail CDC数据整库实时入仓入湖方面的实践。


线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘_数据安全_02


在线数据库数据导入到数仓分析的链路已经存在多年,随着近年来实时计算的发展,业界期待有延迟更低、运维更便捷、效率更高的CDC同步通道。李延加在现场介绍了DataSail实现CDC整库实时同步的技术方案和业务实践。


线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘_数据中台_03

随着数字化转型的推进以及业务数仓建设不断完善,大数据开发体量及复杂性逐步上升,如何保证数据稳定、正确、持续产出成为数据开发者核心诉求,也成为平台建设面临的挑战之一。


火山引擎DataLeap 产品经理黄虹现场分享了字节跳动基于大数据研发治理套件DataLeap的DataOps实践,阐述了DataOps理念在字节的具象以及DataOps敏捷规范研发平台。DataOps是数据开发的新范式,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,才能实现高质量数字化发展。


数据基础建设过程中的成本优化和效率提升是困扰在很多大数据相关企业的难题,本次活动上基于研发提效的角度,来自 ByteHouse、EMR、LAS研发和产品专家从不同技术细节方向给大家带来干货分享。

线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘_数据研发_04


火山引擎 ByteHouse 产品经理孔柏林现场分享了基于ByteHouse引擎的增强型数据导入技术实践,作为一款云原生数据仓库ByteHouse基于自研引擎HaUniqueMergeTree,构建增强MaterializedMySQL、HaKafka引擎,实现数据生产-应用一体化,通过案例分析与总结让与会者理解一体化解决方案的实践及业务价值。


线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘_数据研发_05


目前大数据量分析场景下面临着如下核心挑战:HDFS与对象存储之间的语义差异;存算分离之后带来的较大性能损耗。火山引擎 EMR 研发工程师吴志平从基于Proton的存算分离角度带来了相关技术实践。


云原生开源大数据平台EMR团队针对这些挑战自研了Proton加速引擎,深度优化对象存储读写能力,与Hive/Spark/Trino等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。


线下Meetup:在数智化转型背景下,火山引擎VeDI的大数据技术揭秘_数据治理_06


当前Spark、Presto等引擎原Java执行的性能优化进入瓶颈期,无法满足业务需求,而基于向量化和编译优化的native引擎,可获两倍性能加速比,降低资源成本。


火山引擎LAS高级研发工程师杨嘉义在现场向大家介绍了火山引擎LAS底层的湖仓一体加速引擎Bolt的架构及在在LAS的应用实践,据了解Bolt已经在字节跳动内部SparkSQL、Presto大规模上线,加速效果显著,其特色有:面向多场景统一加速、端到端向量化执行。


本次 Meetup 不仅为技术爱好者们提供了一个互动交流的平台,也让大家更深入地了解了火山引擎数智平台(VeDI)各产品在数智化转型时代背景下,如何更高质量、更低成本、更快响应的支撑业务应用。


期待下一次的 Meetup,让我们再次相聚,共同探讨技术的魅力。


点击跳转大数据研发治理套件 DataLeap了解更多

标签:数智化,研发,Meetup,火山,引擎,ByteHouse,数据,VeDI,LAS
From: https://blog.51cto.com/bytedata/7605954

相关文章

  • requests 响应头部转json时报错TypeError: Object of type CaseInsensitiveDict is n
    前言requests响应头部在转json时,想格式化输出,结果报错TypeError:ObjectoftypeCaseInsensitiveDictisnotJSONserializable报错详情示例代码importrequestsimportjson#上海悠悠wx:283340479#blog:https://www.cnblogs.com/yoyoketang/r=requests.get('htt......
  • 构建资产数智化平台,为央国企资产保值增值保驾护航
    近年来,中国大规模基础建设形成了百万亿级的实物资产,随着国家新一轮的经济体制改革,政府和企业都提出了盘活存量资产的口号,资产密集型企业从粗放性投资转变为精益化管理将是大势所趋,科学开展资产管理愈发重要。在“十四五”规划下,资产管理树立两个关键目标—以风险防控为底线,以存量盘......
  • 活动报名 | Modern Data Stack Meetup 北京首站启动!与三大开源社区共同探索现代数据栈
    相信对于“现代数据堆栈(ModernDataStack)”这个名词,大家早已不陌生。但若问及其真正含义,往往又很难快速、准确地阐明。事实上,对于我们的团队组织而言,吃透并灵活应用“现代数据栈”所能带来的价值与收益,将会是深远且符合发展趋势的。Q1:什么是现代数据堆栈?现代数据堆栈的流行......
  • PPT| 汽车制造行业企业数智化战略规划 P144
       随着信息技术和智能制造技术的不断发展,汽车制造业正在经历数字化和智能化转型,汽车数智化已成为汽车行业的重要趋势。汽车数智化是指通过数字化、智能化、互联化等技术手段,将汽车制造过程数字化,实现生产、研发、销售、售后等各个环节的高效协同,以提升汽车行业的生产效率、......
  • 覆盖8大领域,云投集团财务数智化管理平台全面上线!
    近日,由用友承建的云南省投资控股集团有限公司(简称:云投集团)智能财务管理平台项目全面上线!此次合作依托用友BIP,为云投集团构建“战略管控、业务运营、共享服务”三位一体的财务数智化体系,建设财务核算、合并报表、共享费控、预算管理、资金管理、税务云、电子会计档案、数据仓库与数......
  • OpenHarmony Meetup常州站招募令
    OpenHarmonyMeetup常州站正火热招募中!诚邀充满激情的开发者参与线下盛会~探索OpenHarmony前沿科技,畅谈未来前景,感受OpenHarmony生态构建之路的魅力!线下参与,名额有限,仅限20位幸运者!报名截止时间为9月26日24:00点,快快行动起来~参加OpenHarmonyMeetup常州站将有好礼相送:1.......
  • OpenHarmony Meetup常州站招募令
    OpenHarmonyMeetup常州站正火热招募中!诚邀充满激情的开发者参与线下盛会~探索OpenHarmony前沿科技,畅谈未来前景,感受OpenHarmony生态构建之路的魅力!线下参与,名额有限,仅限20位幸运者!报名截止时间为9月26日24:00点,快快行动起来~参加OpenHarmonyMeetup常州站将有好礼相送:1.......
  • 【直播回顾】应对数智化时代下SAP用户的系统转型挑战——SNP TDO
    “京西重工通过20天的项目周期,实现了将SAPECC系统2.5T的总数据量,按13个月以时间切片方式刷新测试数据。存储和管理成本降低多达80%、测试数据量减少70%、生产系统零停机。”  “海尔日日顺历经不到3个月的时间,将70多家公司代码从海尔源系统拆分迁移至新系统。”2023年8月31日,在......
  • Meetup 回顾|Data Infra 研究社第十五期(含资料发布)
    本文整理于上周六(9月09日)DataInfra第15期的活动内容。本次活动由Databend研发工程师-韩山杰为大家带来了一场主题为《Databend数据集成方案》的分享,让我们一起回顾一下吧~以下是本次活动的相关文字、视频及资料:通过本次分享,我们能更加的了解Databend的生态工具,在不同数......
  • 牵手成功!浪潮信息&连用科技,共同推进内容资产管理数智化变革
    近日,浪潮信息与连用科技达成合作,双方将充分发挥各自行业领域内的专业优势和资源,在产品、技术、解决方案、市场营销等方面进行深度合作,共同推动企业内容管理的数智化转型进程。内容管理软硬件联合方案 随着信息化和智能化的不断提升,企业面临着海量内容数据的快速涌入,其作为一种重要......