首页 > 其他分享 >dremio vectorized Parquet Reader v2 支持

dremio vectorized Parquet Reader v2 支持

时间:2024-02-01 12:00:34浏览次数:51  
标签:dremio java vectorized Parquet v2 parquet com

dremio 从24.3 开始支持parquet v2 writer 同时性能提升还是很明显的

对于读

官方在TPC-DS测试中,最低有22% 左右的,最高97%,平均77% 左右

写入

同样也是TPC-DS 中,存储降低24%左右,写入提升1.5% 左右,如果开启了c3 读性能提升6.4%

开启

  • ui配置(全局)

可以通过support key

  • sql 配置(全局)
 
ALTER SYSTEM SET "store.parquet.writer.version" = 'v2'

说明

目前我小数据量的测试,存储的确减少了一些,但是读可能因为数据比较少,并没有明显的变化,数据量大可能效果比较明显

参考资料

sabot/kernel/src/main/java/com/dremio/exec/store/parquet/ParquetRecordWriter.java
sabot/kernel/src/main/java/com/dremio/exec/ExecConstants.java
https://www.dremio.com/blog/vectorized-reading-of-parquet-v2-improves-performance-up-to-75/

标签:dremio,java,vectorized,Parquet,v2,parquet,com
From: https://www.cnblogs.com/rongfengliang/p/18000918

相关文章

  • dremio 24.3.2发布
    就在最近dremio提供了24.3.2社区版的下载,同时oss源码也发布了,核心是一些fix,详细的可以参考官方的releasenotes说明大概看了下gitcommit一些变动,此版本开始,一些本来为false的参数直接设置为了true了比如codedremio.unlimited_splits.metadata.clean.enabled同时也进行了一......
  • dremio random 函数造成dremio crash 问题
    以前没注意使用random,在看社区问题的时候测试了下发现的确有类似的问题,官方的解决方法是通过配置禁用gandiva优化参考配置支持key格式 exec.disabled.gandiva-functions:<function>;<function>参考配置参考禁用处理sabot/kernel/src/main/java......
  • dremio + grafana/tempo opentelemetry监控集成
    昨天我写过一个基于signoz的dremioopentelemetry集成,实际上grafana/tempo也是一个很不错的选择,主要是部署简单,以下是一个简单测试环境准备docker-compose文件version:"3"services:tempo:image:grafana/tempo:latestcommand:["-config......
  • dremio opentelemetry监控试用
    标准的系统监控应该包含metrics,trace,log这个三大类,metrics部分,包含了一个promethues的扩展,当然官方也支持jmx以及slf4j的opentelemetry是一个直接内置的trace功能,很不错,以下是一个简单的测试环境准备dremio默认就支持opentelemetrytrace,对于opentelemetrycollector......
  • dremio 基于Options注解的配置技巧
    以前简单写过一个dremio配置相关的介绍,以下是一个简单的使用原理dremio自己定义了一个Options的注解,包含此注解的类会被启动的时候进行类扫描加载,Options的会存储起来(分为不用类型的)有session级别的,系统级别的。。。。简单使用pom.xml <?xmlversion="1.......
  • spring boot 3.2.1 dremio jdbc jprofiler 集成
    jprofiler可以直接与idea集成,对于分析一些实际需要debug但是不好复现的问题还是比较方便的,以下是一个简单的与dremio集成的,springboot使用了3.2(jdk需要17)同时也会包含一些启动说明安装idea插件直接plugins的市场中搜索安装就可以了,之后就是配置了idea启动配置因......
  • dremio nessie 版本持久化配置简单说明
    dremio对于nessie的使用就是一个插件配置,默认基于docker运行的nessie是没有进行版本持久化的,以下是一个简单说明配置参考我基于了pg,实际支持的存储引擎还是很多的docker-composeversion:"3"services:mysql2:image:mysql:5.6command:--......
  • dremio jdbc 访问最好使用链接池工具
    昨天在碰到一个dremiojdbc比较奇怪的问题,按照了标准的jdbc操作(建立链接,创建Statement,处理数据,关闭Statement,关闭连接)当进行多次执行(多次建立连接操作)发现dremio有一个操作异常,造成数据表创建有问题(事务不完整)参考代码 privatestaticvoidv3(){tr......
  • dremio 测试特性api 的开启&外部profile查看
    以前简单说过基于代码修改开启test的外部profile能力,实际上官方是由配置参数的,可以在启动的时候添加到配置中配置添加dremio.conf文件debug{allowTestApis:true}检查选项时候开启的一个技巧使用arthas命令使用了arthas的vmtool也可以结......
  • dremio dbt + nessie 集成profile 简单说明
    我最近写了一个简单的关于dremio集成nessie以及dbt玩法的说明,以下简单说明下dbt如何配置配置说明对于配置实际上与以前一些介绍类似,集成nessie的使用与其他是类似的,只是集成nessie之后我们的数据开发模型上就有了实际的版本了(dbt集成git之后也会包含版本,是属于模型代码......