表治理-iceberg表手动治理常用命令

时间：2024-04-22 10:56:30浏览次数：24

标签：iceberg -- ods lake 治理常用命令 test table data

一、登录spark客户端

spark-sql --master yarn \
--deploy-mode client \
--queue default \
--name wang \
--driver-memory 12G \
--num-executors 10 \
--executor-cores 4 \
--executor-memory 20G

二、sql查询表信息

1、查询表快照信息

SELECT * FROM spark_catalog.data_lake_ods.test_table.snapshots order by committed_at desc

SELECT count(1) FROM spark_catalog.data_lake_ods.test_table.snapshots

2、查询删除文件

SELECT * FROM data_lake_ods.test_table.all_delete_files

SELECT count(1) FROM data_lake_ods.test_table.all_delete_files

三、表治理

1、小文件合并

CALL spark_catalog.system.rewrite_data_files(
table => 'data_lake_ods.test_table',
options => map(
  'partial-progress.enabled', 'true',
  'rewrite-job-order', 'bytes-asc',
  'partial-progress.max-commits', '10000',
  'max-file-group-size-bytes', '1073741824',
  'rewrite-all','true'
  )
);

2、过期快照清理

CALL spark_catalog.system.expire_snapshots(table => 'data_lake_ods.test_table', older_than => TIMESTAMP '2024-04-08 10:00:00.000');

标签：iceberg,--,ods,lake,治理,常用命令,test,table,data
From： https://www.cnblogs.com/robots2/p/18150197

数据治理2
么是数据治理？数据治理是一种管理和保护数据资源的综合性方法。它涵盖了数据的收集、存储、处理、传输和使用，旨在确保数据的质量、可用性、安全性和合规性。数据治理的要素数据治理包括以下关键要素：数据质量管理：确保数据准确、完整、一致和可靠。数据安全......
linux运维常用命令总结
1.tarzcf打包目录时，排除其中的一些目录或者文件tar--exclude=dir1--exclude=dir2--exclude=file1-czvfarchive.tar.gzsource_directory 2.yum只下载不安装包yum-yinstallnfs-utilsrpcbind--downloadonly--downloaddir/home/nfs 3.查看本机出网IP地址......
数据治理
数据治理对于企业来说至关重要。它可以帮助企业清晰地了解自己的数据资源、数据流和数据质量。通过有效的数据治理，企业能够更好地管理和控制数据，最大化数据的价值，并在决策过程中减少错误和风险。数据治理的步骤及原则数据收集和整合数据治理的第一步是收集和整合数据......
Linux常用命令知识点总结
目录目录目录基础指令Linux命令基本格式文件操作文件格式文件权限创建文件查看文件删除文件移动文件复制文件编辑文件查找文件查找命令路径vim文本编辑器一般指令模式(commandmode)编辑模式(insertmode)指令列命令模式command-linemode目录操作打印路径查看目录切换目录创建目......
Docker之常用命令
查看信息命令含义dockerversion查看版本信息dockerinfo查看详细信息docker--help查看帮助信息dockerstats查看docker资源使用镜像管理命令含义案例dockerimages显示镜像dockerimages-a显示所有镜像dockerimages-q只显......
谈谈数据治理（什么是数据治理）
谈谈数据治理（什么是数据治理）转载至https://zhuanlan.zhihu.com/p/651814557 数据治理是一个对企业数字化转型至关重要的一个环节，关乎着企业核心数据是否能被规范化管理、数据的价值是否能被充分发挥等等。说白了能给企业实现降本增效、业务精细化运营、重要决......
读所罗门的密码笔记19_治理模式
1. 解决方案1.1. 全球人工智能的环境错综复杂，它严重依赖于价值观，且关系重大1.2. 即使是与大家同仇敌忾的问题做斗争，也往往无法在国际社会中取得最佳效果1.3. OPCW（禁止化学武器组织）已经帮助限制了化学武器的开发和部署，但没有协议是百分百奏效的1.4. 如果《核不扩散条约》......
docker常用命令收藏
1.与docker启停关闭等相关系统命令docker-V#查看docker版本信息docker--help#查看docker命令帮助信息systemctlstartdocker.service#启动dockersystemctlstopdocker.service#停止dockersystemctlrestartdocker.service#重启dockersystemctlstatusdocke......
linux 常用命令有哪些
linux常用命令有哪些写回答关注问题点赞收藏分享发现错别字举报回答1浏览3891 帅末2linux常用命令有：pwd命令使用pwd命令找出您所在的当前工作目录（文件夹）的路径。该命令将返回一个绝对（完整）路径，该路径基本上是所有以/开头的目录的路径。绝对路......
Anaconda常用命令
一、环境1.1创建新环境condacreate-nyour_env_namepython=X.X(2.7\3.6等)1.2查看anaconda环境信息查看已经创建了哪些anaconda环境（星号代表当前环境）condainfo--env1.3激活anaconda环境或解除激活condaactivate/condadeactivate激活某个anaconda环境：con......

表治理-iceberg表手动治理常用命令

相关文章

赞助商

阅读排行