• 2024-06-05(数据科学学习手札161)高性能数据分析利器DuckDB在Python中的使用
    本文完整代码及附件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes1简介大家好我是费老师,就在几天前,经过六年多的持续开发迭代,著名的开源高性能分析型数据库DuckDB发布了其1.0.0正式版本。DuckDB具有极强的单机数据分析性能表现,功能丰
  • 2024-05-11格式和协议_数据传输和持久化
    数据格式:序列化:序列化最终的目的是为了对象可以跨平台存储和进行网络传输ProtocolBuffersParquet是一种列式存储格式,旨在提供一种高效的方式来存储和处理大型数据集 Parquet不是“运行时内存格式”,它属于文件格式Avro格式是一种远程过程调用(RPC)和数据
  • 2024-04-11基于dremio 安装包进行源码依赖包maven 私服重建的一个思路
    dremio25.0版本已经发布了,但是如果希望自己源码构建,但是缺少一些依赖造成编译会有问题,但是我们可以直接基于官方提供的下载包的文件进行maven私服的重建,以下说明下简单流程参考流程下载软件包这个可以从dremio官网下载到最好选择一个可以构建的分支本地构建下此步
  • 2024-03-07Python中Spark读取parquet文件并获取schema的JSON表示
     步骤:初始化SparkSession。使用spark.read.parquet()读取Parquet文件。调用df.schema.json()获取schema的JSON表示。frompyspark.sqlimportSparkSession#初始化SparkSessionspark=SparkSession.builder.appName("ReadParquetSchema").getOrCreate(
  • 2024-02-01dremio vectorized Parquet Reader v2 支持
    dremio从24.3开始支持parquetv2writer同时性能提升还是很明显的对于读官方在TPC-DS测试中,最低有22%左右的,最高97%,平均77%左右写入同样也是TPC-DS中,存储降低24%左右,写入提升1.5%左右,如果开启了c3读性能提升6.4%开启ui配置(全局)可以通过supportkeysql配置(全
  • 2024-01-272024.1.27日报
    3.4SparkSQL应用3.4.1创建DataFrame/DataSet方式一:读取本地文件①在本地创建一个文件,有id、name、age三列,用空格分隔,然后上传到hdfs上。vim/root/person.txt12内容如下:1zhangsan202lisi293wangwu254zhaoliu305tianqi356kobe4012345
  • 2023-11-19hadoop的文件存储格式parquet
    hadoop里支持许多压缩算法。压缩的好处主要有两点:1.减少了文件占用的存储空间,原来上T的文件可能压缩完以后只需要两三百G的空间即可;2.文件的体积小了以后,数据传输的速度自然就快了。在现在的大数据环境下,这两点显得更加重要。所以现在hdfs文件系统上存的文件,如果数据量大
  • 2023-10-01pandas 加载minio 文件数据
    就是一个简单记录,基于s3进行文件存储还是比较方便的环境准备docker-compose.yamlversion:'3'services:minio:image:minio/minioports:-"9002:9000"-"19001:19001"environment:MINIO_ACCESS_K
  • 2023-09-05第02章-存储和压缩格式
    目录第02章存储和压缩格式22.1存储和压缩格式对比22.2查询效果测试32.3查询效果测试带shuffle3第02章存储和压缩格式存储和压缩格式简介SparkSQL表存储的数据量都特别大,因此存储格式要考虑查询性能写入性能和存储成本。而orc存储格式是一种列式存储,在查询写入时比较快,而
  • 2023-08-21数据存储与压缩问题
    选择适合的底层数据存储格式,可以极大得提升性能。MR中常见的数据压缩格式Hive数据存储格式TextFile:默认使用;支持压缩,压缩后的TextFile(部分压缩格式)在Hive中无法切割。SequenceFile:二进制文件,内部数据是kv对形式,行存储;可切分、可压缩、支持NONE、Record、Block级别的压缩。
  • 2023-08-02parquet极简学习
    parquet极简学习摘要parquet的概念:Parquet文件是一种列式存储文件格式,广泛应用于大数据处理框架,如ApacheHadoop和ApacheSpark。它通过将数据组织成列而不是行来优化大型数据集的读写。这种列式存储格式允许进行高效压缩、更好的查询性能,并在处理大型数据集时提高I/O效率
  • 2023-07-17hive parquet格式不能为空
    HiveParquet格式不能为空在大数据领域中,Hive是一种常用的数据仓库工具,用于处理和分析大规模数据集。HiveParquet格式是Hive中一种常用的数据存储格式。本文将介绍HiveParquet格式以及为什么它不能为空。什么是HiveParquet格式?HiveParquet格式是一种列式存储格式,它使用了Apa
  • 2023-07-16加速LakeHouse ACID Upsert的新写时复制方案
    概述随着存储表格式ApacheHudi、ApacheIceberg和DeltaLake的发展,越来越多的公司正在这些格式的基础上构建其Lakehouse,以用于许多用例,例如增量摄取。但当数据量增加时,更新插入的速度有时仍然是一个问题。在存储表中,使用ApacheParquet作为主要文件格式。在本文中我们
  • 2023-07-06使用部分写时复制提升Lakehouse的 ACID Upserts性能
    使用部分写时复制提升Lakehouse的ACIDUpserts性能译自:FastCopy-On-WritewithinApacheParquetforDataLakehouseACIDUpserts传统的写时复制会直接读取并处理(解压解码等)整个文件,然后更新相关数据页并保存为新的文件,但大部分场景下,upsert并不会更新所有数据页,这就导致
  • 2023-06-27Databend 开源周报 第 99 期
    Databend是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn。What'sOnInDatabend探索Databend本周新进展,遇到更贴近你心意的Databend。FlinkCDCApacheFlinkCDC(ChangeDataCapture)是指Ap
  • 2023-06-06为什么我们选择parquet
    为什么我们选择parquet前用的hadoop,一直有个疑惑。当时没有细究,昨天突然想到,就又顺着看了下,经过调整,原来在presto中要用1分钟的,现在基本可以秒级别出结果,和presto无关,和文件存储格式有关,hdfs默认存的是文本格式,所以hive,presto,都是在文本格式上做计算,hadoop本身是全表扫,只是分布式
  • 2023-05-31运行mem-data-analysis-framework
    下载:wgethttps://mem:[email protected]/mem-prototype/mem-data-analysis-framework.tar.gzdockerload<mem-data-analysis-framework.tar.gzdockerrun --network="host" -t -d  mem-prototype:latest 然后访问localhost:8080即可看到代码! 上传数据到dock
  • 2023-05-30parquet文件格式——本质上是将多个rows作为一个chunk,同一个chunk里每一个单独的column使用列存储格式,这样获取某一row数据时候不需要跨机器获取
    Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问。ClouderaImpala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面,比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对其中少数的几个
  • 2023-05-11parquet is not a Parquet file (length is too low: 0)
    当执行SparkSQL遇到这个错误时,可能是因为对应分区的数据全被删除了,变成了空分区,解决办法是删除该分区。hdfs://warehouse/test.db/t_test/20230511/eaf5f003-5658-4b19-b706-ac487cebad7e-0_3-10-79_20230421093519585.parquetisnotaParquetfile(lengthistoolow:0)
  • 2023-05-06Hive表 Parquet压缩 , Gzip,Snappy,uncompressed 效果对比
     创建两张表,通过一种是parquet,一种使用parquetsnappy压缩创建表使用snappyCREATEEXTERNALTABLEIFNOTEXISTStableName(xxxstring)partitionedby(pt_xvcstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\001'STOREDASPARQUETTBLPROPERTIES('parquet.compre
  • 2023-04-27数据库_duckdb_本地访问远程数据_ aws s3
    Extensions扩展FullTextSearchHTTPFSJSONPostgresScannerSQLiteScannerpython3-c"importduckdb;duckdb.query('INSTALLhttpfs;');"Loadinganextensionfromlocalstorage 参考https://duckdb.org/docs/extensions/overviewh
  • 2023-04-14 解密 parquet 文件,以及如何用 Python 去处理它
    楔子随着大数据时代的发展,每天都要产生大量的数据,而存储这些数据不仅需要更多的机器,怎么存也是一个问题。因为数据不是存起来就完事了,我们还要对数据进行分析、统计,所以一个合理的数据格式也是非常重要的。而随着数据种类的不同,我们也会选择不同的格式去存储。数据种类数据一
  • 2023-03-16parquet文件的操作记录
    importpyarrow.parquetaspqparquet_file="36152ae88916cad7eecc74cafa5c6413.parquet"schema=pq.ParquetFile(parquet_file).schema可以查看schema,我们可以看到
  • 2023-01-14Apache Arrow User Guide——使用Apache Arrow读写HDFS中的parquet文件
    安装一下HADOOP并配置一下LD_LIBRARY_PATHexportHADOOP_VERSION=2.10.1exportHADOOP_HOME=/opt/hadoop-$HADOOP_VERSION#AddHadoopJavalibrariestoyourCLASSPATH,
  • 2023-01-14Apache Arrow User Guide —— Reading and writing Parquet files
    ReadingParquetfilesarrow::FileReader类将整个文件或行组的数据读取到::arrow::Table中。StreamReader和StreamWriter类允许使用C++输入/输出流方法逐列逐行读取/写入字