• 2024-05-26Lakehouse 还是 Warehouse?(1/2)
    Onehouse创始人/首席执行官VinothChandar于2022年3月在奥斯汀数据委员会发表了这一重要演讲。奥斯汀数据委员会是“世界上最大的独立全栈数据会议”,这是一个由社区驱动的活动,包括数据科学、数据工程、分析、机器学习(ML)、人工智能(AI)等。VinothChandar在Uber工作期
  • 2023-11-06Apache Paimon 实时数据湖 Streaming Lakehouse 的存储底座
    摘要:本文整理自阿里云开源大数据表存储团队负责人,阿里巴巴高级技术专家李劲松(之信),在StreamingLakehouseMeetup的分享。内容主要分为四个部分:流计算邂逅数据湖PaimonCDC实时入湖Paimon不止CDC入湖总结与生态一、流计算邂逅数据湖流计算1.0实时预处理流计算1.0架构截止
  • 2023-07-16加速LakeHouse ACID Upsert的新写时复制方案
    概述随着存储表格式ApacheHudi、ApacheIceberg和DeltaLake的发展,越来越多的公司正在这些格式的基础上构建其Lakehouse,以用于许多用例,例如增量摄取。但当数据量增加时,更新插入的速度有时仍然是一个问题。在存储表中,使用ApacheParquet作为主要文件格式。在本文中我们
  • 2023-07-06使用部分写时复制提升Lakehouse的 ACID Upserts性能
    使用部分写时复制提升Lakehouse的ACIDUpserts性能译自:FastCopy-On-WritewithinApacheParquetforDataLakehouseACIDUpserts传统的写时复制会直接读取并处理(解压解码等)整个文件,然后更新相关数据页并保存为新的文件,但大部分场景下,upsert并不会更新所有数据页,这就导致
  • 2023-01-22Data LakeHouse概览
    原始数据的挑战随着大量应用程序的出现,产生了相同的数据在不同地方出现不同值的情况。为了做出决定,用户必须找到在众多应用程序中使用哪个版本的数据才是正确的。如果用户没
  • 2022-11-27Lakehouse架构指南
    你曾经是否有构建一个开源数据湖来存储数据以进行分析需求?数据湖包括哪些组件和功能?不了解Lakehouse和数据仓库之间的区别?或者只是想管理数百到数千个文件并拥有更
  • 2022-11-09Oracle CloudWorld 2022:重磅推出MySQL湖仓产品-MySQL HeatWave Lakehouse
       MySQLHeatWave是目前唯一一个在单个MySQL数据库中融合了OLTP、OLAP、机器学习和机器学习自动化(Autopilot)的云数据库服务。​Oracle在今年的CloudWorld大会