• 2025-01-07Flink同步mysql写入Iceberg异常,一秒写入一次
    1、现象在Iceberg数据湖治理过程中发现,同步任务运行7天没有写入数据,运行7天后突然大批量产生Commit,一秒产生一个Commit。 2、问题Flink写入checkpoint时会在checkpoint中先记录一个递增id,commit后会在Iceberg表中记录一个递增commitID,记录了两个id,默认两个id相等。通过不
  • 2024-08-18flink + iceberg 快速搭建指南
    flink+iceberg快速搭建theenvironmentincludes:minioicebergflinkCentos更换tencent的yum源备份系统旧配置文件mv/etc/yum.repos.d/CentOS-Base.repo/etc/yum.repos.d/CentOS-Base.repo.backup获取对应版本的CentOS-Base.repo到/etc/yum.repos.d/目录各版
  • 2024-07-17Iceberg v2表写入和微批治理冲突,如何保证治理准确性
    一、背景微批治理任务分多个job治理一张表,还有一个Flink程序每5分钟一次写入iceberg表,如治理任务划分了20个job治理一张表,在治理期间存在新的数据更新,如何保证治理准确性 二、猜想待验证1、治理和写入时快照和文件变化snapshot_idmanifest_file备注    
  • 2024-07-12Iceberg metrics导致的问题
    一、问题描述在icebergrewrite时报错:org.apache.iceberg.exceptions.ValidationException:Cannotcommit,foundnewdeleteforreplaceddatafile看信息像是对于要删除的DataFile,有新的DeleteFile作用于它,不应该直接删除DataFile。但是我们很明确并没有DeleteFile作用于其
  • 2024-06-05京东零售数仓的发展过程以及建设框架
    参考:地址1.1发展过程业务驱动数据技术发展,业务野蛮生长,以解决业务痛点为核心,导致烟囱式诞生了一些小数据平台。业务精细化运营,数据平台将多业务线条、多场景的能力进行沉淀,形成数据资产。数据中台化建设已完成,数据驱动业务,通过数据挖掘、分析和人工智能,规模化的赋能业
  • 2024-05-17Flink同步kafka到iceberg数据延迟,两个checkpoint后才可查询
    一、问题描述用户配置了高级参数很多,观察kafka增量数据不多,flink负载不高情况下两个checkpoint后才可查询到数据。  排查时hdfs有数据文件产生,但是mainfast文件中最新快照id没变化。 二、原因经腾讯排查,用户参数指定高级参数execution.checkpointing.unaligned:true引起
  • 2024-05-16Flink同步kafka到iceberg(cos存储)
    一、flink到logger1、sourcecreatetablesource_table(idbigintcomment'唯一编号',order_numberbigintcomment'订单编号',update_timestamptimestamp_ltzmetadatafr
  • 2024-05-14Flink同步mysql到iceberg
    一、如何做一致性保障1、全量数据分片读取,增量数据单并发读取,保证增量阶段不会乱序2、全量阶段写入失败会清空表后重新写入,避免重复数据。3、全量阶段多task并行读取,把每个task开始结束时间提交给FlinkCoordinator,由Coordinator做时间合并后,仅读取一次全量同步区间内变化的binlo
  • 2024-04-22使用iceberg-使用Iceberg数据湖需要注意的点
    一、资料准备1、mysql地址选择因为阿里云只读节点binlog保留时间短,需要用读写集群地址。可以登录阿里云控制台查看地址是只读还是读写,不清楚的话可以找dba要读写地址。二、Iceberg概念1、Iceberg选择合适的表版本简述:Iceberg目前有两个表版本(V1和V2),根据数据选择合适的表版本
  • 2024-04-22数据湖问题记录跟进
    一、问题追踪问题详细描述提出问题时间是否完成计划完成时间备注了解Iceberg数据存储方式了解元数据存储信息、数据组织方式、查询时处理流程等20231013是20231019!!!20231124前均为大致的时间调研报告:调研报告-基于Iceberg构建湖仓一体平台调
  • 2024-04-22表治理-iceberg表手动治理常用命令
    一、登录spark客户端spark-sql--masteryarn\--deploy-modeclient\--queuedefault\--namewang\--driver-memory12G\--num-executors10\--executor-cores4\--executor-memory20G二、sql查询表信息1、查询表快照信息SELECT*FROMspark_catalog.data_lak
  • 2024-03-12Seatunnel系列之:Apache Iceberg sink connector和往Iceberg同步数据任务示例
    Seatunnel系列之:ApacheIcebergsinkconnector和往Iceberg同步数据任务示例一、支持的Iceberg版本二、支持的引擎三、描述四、支持的数据源信息五、数据库依赖六、数据类型映射七、Sink选项八、往Iceberg同步数据任务示例一、支持的Iceberg版本1.4.2二
  • 2024-02-02Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询
    1概况本文展示如何使用FlinkCDC+Iceberg+Doris构建实时湖仓一体的联邦查询分析,Doris1.1版本提供了Iceberg的支持,本文主要展示Doris和Iceberg怎么使用,大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。2系统架构我们整理架构图如下,   1.首先我们从Mysq
  • 2024-02-02Apache Doris 整合 FLINK CDC + Iceberg 构建实时湖仓一体的联邦查询
    1概况本文展示如何使用FlinkCDC+Iceberg+Doris构建实时湖仓一体的联邦查询分析,Doris1.1版本提供了Iceberg的支持,本文主要展示Doris和Iceberg怎么使用,大家按照步骤可以一步步完成。完整体验整个搭建操作的过程。2系统架构我们整理架构图如下,   1.首先我们从Mysq
  • 2024-01-09dremio nessie 集成玩法
    昨天我简单写了dremio集成nessie的玩法,实际上dremio与nessie的集成可以分为两大类,一类是使用nessie做为catalog服务(当然也是支持写入iceberg的),一类是基于外部工具(spark,flink)使用nessie做为metadatastorage然后dremio查询参考玩法图外部工具类的catalog类的此时ness
  • 2023-12-30dremio nessie 集成玩法
    昨天我简单写了dremio集成nessie的玩法,实际上dremio与nessie的集成可以分为两大类,一类是使用nessie做为catalog服务(当然也是支持写入iceberg的),一类是基于外部工具(spark,flink)使用nessie做为metadatastorage然后dremio查询参考玩法图外部工具类的catalog类的
  • 2023-12-08Iceberg Spark存储过程-表治理工具
    一、简介存储过程(Procedure)是数据库领域的概念,类似于编程语言中的方法或函数,是对实现特定操作的封装,原生的SparkSQL中是不支持存储过程的,Iceberg0.11.0版本之后对其进行了扩展,并提供了部分存储过程的实现。Iceberg中提供的所有存储过程都在systemnamespace下,分快照管理、
  • 2023-12-05spark-sql查询Iceberg时处理流程
    1、查询表结构showcreatetabledata_lake_ods.testCREATETABLEspark_catalog.data_lake_ods.test(`user_number`BIGINTNOTNULL,`subclazz_number`BIGINTNOTNULL,`clazz_number`BIGINT,`clazz_lesson_number`BIGINTNOTNULL,`lesson_live_property`
  • 2023-11-02javaapi、spark、flink 创建Iceberg表,hive 和impala无法正常读取解决
    spark、flink创建Iceberg表中,元数据存储在hive的meta_store,发现hive或者impala无法正常读取报错。事实上解决方案是在spark、flink的SQL中执行语句:addiceberg相关引擎的runntime的jar;ALTERTABLEtSETTBLPROPERTIES('storage_handler'='org.apache.iceberg.mr.hive
  • 2023-09-14Apache Iceberg 表有哪些性能优化方式
    ApacheIceberg是一种开源的分布式数据表格格式,旨在提供可扩展性、性能和数据一致性。它建立在ApacheHadoop的基础上,并支持多种数据湖存储(如HadoopHDFS、AmazonS3等)。为了优化ApacheIceberg表的性能,可以采取多种策略和技术,以下是一些重要的性能优化方式和详细示例:Partition
  • 2023-09-11Iceberg从入门到精通系列之十一:Flink DataStream读取Iceberg表
    Iceberg从入门到精通系列之十一:FlinkDataStream读取Iceberg表一、完整代码二、效果如下所示一、完整代码importorg.apache.flink.api.common.typeinfo.Types;importorg.apache.flink.api.java.tuple.Tuple2;importorg.apache.flink.streaming.api.datastream.DataStream;i
  • 2023-09-11Iceberg从入门到精通系列之九:flink sql修改Iceberg表和删除Iceberg表
    Iceberg从入门到精通系列之九:flinksql修改Iceberg表一、修改表属性二、修改表名三、删除表一、修改表属性ALTERTABLE`hive_catalog`.`default`.`sample`SET('write.format.default'='avro');二、修改表名ALTERTABLE`hive_catalog`.`default`.`sample`RENAMETO`hive_cat
  • 2023-09-11Iceberg从入门到精通系列之十五:Spark集成Iceberg
    Iceberg从入门到精通系列之十五:Spark集成Iceberg一、下载Spark安装包二、解压Spark安装包三、配置环境变量四、激活环境变量五、下载Sparkiceberg的jar包六、Spark集成Iceberg七、Spark配置Catalog八、配置HiveCatalog九、配置HadoopCatalog十、spark集成hive十、启动Sparkshe
  • 2023-09-11Iceberg从入门到精通系列之八:flink sql 创建Iceberg表
    Iceberg从入门到精通系列之八:flinksql创建Iceberg表一、创建数据库二、创建表三、创建分区表四、使用LIKE语法建表五、创建主键表一、创建数据库createdatabaseiceberg_db;useiceberg_db;二、创建表createtable`hive_catalog`.`default`.`sample`(idbigintcomment'un
  • 2023-09-11Iceberg从入门到精通系列之五:Zeppelin集成iceberg,创建iceberg普通表和分区表,并插入数据
    Iceberg从入门到精通系列之五:Zeppelin集成iceberg,创建iceberg普通表和分区表,并插入数据一、Zeppelin集成iceberg二、查看catalog三、使用数据库四、查看表五、创建表六、插入数据七、查询数据八、创建分区表九、分区表插入数据十、查询分区表数据一、Zeppelin集成icebergZeppelin