首页 > 其他分享 >Parquet文件格式

Parquet文件格式

时间:2024-12-12 16:56:11浏览次数:6  
标签:存储 方式 基于 文件格式 Parquet 数据

随着大模型AI的进一步发展,我们需要存储和处理的数据量呈指数级增长,寻找存储各种数据风格的最佳方式依然是最大的挑战之一。

相信现在几乎已经没有人还会认为关系数据库是依然是唯一数据存储处理方式。

比如说抖音的视频和直播等信息,其原始数据通常是无法实现以传统(关系)数据库方式存储的,或者以传统方式存储它们需要大量的精力和时间,同时会增加总体数据的分析时间。

即使我们还在以某种方式坚持传统方法,结构化方式存储数据,但我们需要设计复杂且耗时的 ETL 工作负载来将这些数据移动到企业数据仓库中。

这种架构方式使得数据分析从业人员,可能被分为两类,一类人主要每天接触 Python负责处理转换数据到关系型数仓,一类主要接触SQL针对关系型数据库进行分析。

Parquet 一种文件格式

可以说最近几年 Parquet 已经被认为是当今存储数据的事实上的标准了,它主要有以下几个优势:

  1. 数据压缩:通过应用各种编码和压缩算法,Parquet 文件可减少内存消耗,减少存储数据的体积。
  2. 列式存储:快速数据读取操作在数据分析工作负载中至关重要,列式存储是快速读取的关键要求。
  3. 与语言无关:开发人员可以使用不同的编程语言来操作 Parquet 文件中的数据。
  4. 开源格式:这意味着您不会被特定供应商锁定
  5. 支持复杂数据类型

行存储vs列存储

我们已经提到过 Parquet 是一种基于列的存储格式

然而,要了解使用 Parquet 文件格式的好处,我们首先需要区分基于行和基于列的数据存储方式。

在传统的基于行的存储中,数据存储为行序列。像下图所示一样:

<iframe style="display: none !important"></iframe>

标签:存储,方式,基于,文件格式,Parquet,数据
From: https://www.cnblogs.com/ExMan/p/18602958

相关文章

  • Windows Media Player 支持多种播放列表文件格式,主要包括以下几种:
    .m3u、.wpl、.asx、.pls和.mpcpl播放列表格式的对比表,展示它们的主要区别:特性.m3u.wpl.asx.pls.mpcpl格式文本文件(简单列表)XML文件XML文件文本文件(键值对格式)XML文件用途播放音频文件(本地或网络资源)播放音频/视频文件,支持元数据和设置流媒体播放列......
  • Hex文件格式解析
    一、介绍BIN文件和HEX文件是两种常见的文件格式,尤其在嵌入式系统和软件开发领域有广泛应用。以下是对这两种文件的详细介绍以及它们之间的区别:BIN文件介绍定义:BIN文件是一种二进制文件格式,它通常包含了程序执行所需的机器代码。用途:在不同的上下文中,BIN文件有不同的用途和意......
  • Windows事件日志文件 .evt 和 .evtx 是用于存储和管理系统、应用程序、和安全事件的两
    Windows事件日志文件.evt和.evtx是用于存储和管理系统、应用程序、和安全事件的两种文件格式。它们在Windows操作系统中都起到了记录日志的作用,但有一些关键的差异。以下是.evt和.evtx文件格式的对比表格:特性.evt文件.evtx文件文件扩展名.evt.evtx引入......
  • VTK文件格式学习
    VTK文件格式#vtkDataFileVersion2.0vtkoutputASCIIDATASETUNSTRUCTURED_GRIDPOINTSndataTypep0xp0yp0zp1xp1yp1z...p(n-1)xp(n-1)yp(n-1)zCELLSmsizenumPoints0,id0_0,id0_1,...,id0_numPoints0numPoints1,id1_0,id1_1,...,id1_numPoints1........
  • 深入vendor_boot.img文件格式实例解析
    以mtk平台为例,分析android源码编译生成的vendor_boot.img的结构。vendor_boot包括boot.imgheader、kernel、ramdisk系统。    vendor_boot的文件头信息具体在lk阶段platform/common/include/bootimg.h可以看到:#defineVENDOR_BOOT_MAGIC"VNDRBOOT"#defineVEND......
  • emwin生成C文件格式的位图数据
    1、打开BmpCvtV6162、点击 【File】->【Open】,选择PNG格式的图片3、点击【File】->【Saveas】,保存类型选择【Cfiles】,点击【保存】4、在弹出的对话框中,选择【Highcolor(565)】,点击【OK】,文件生成完成。......
  • Ghostscript 是一个开源的解释器,用于处理和操作 PostScript(PS)和 PDF 文件。它主要用于
    Ghostscript是一个开源的解释器,用于处理和操作PostScript(PS)和PDF文件。它主要用于将这些文件格式转换为其他格式(如图像、PDF、PostScript),或者将它们打印出来。Ghostscript可以作为独立的程序运行,也可以嵌入其他应用程序中,提供打印、渲染和转换功能。为什么使用Ghostscript?......
  • 用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
    高效的数据处理对于依赖大数据分析做出明智决策的企业和组织至关重要。显著影响数据处理性能的一个关键因素是数据的存储格式。本文探讨了不同存储格式(特别是Parquet、Avro和ORC)对GoogleCloudPlatform(GCP)上大数据环境中查询性能和成本的影响。本文提供了基准测试,讨论了成本......
  • 菜鸟笔记之PWN入门(1.1.0)ELF 文件格式和程序段解析(简版)
    ELF(ExecutableandLinkableFormat):是一种用于可执行文件、目标文件和库的文件格式,类似于Windows下的PE文件格式。ELF主要包括三种类型的文件:可重定位文件(relocatable):编译器和汇编器产生的 .o 文件,由 Linker 处理。可执行文件(executable): Linker ......
  • huggingface上数据集常用格式Parquet及调用
    Parquet格式解释及词解Parquet,中文通常翻译为帕奎或帕凯,是一种高效的列式存储格式。为什么叫Parquet?Parquet这个词源自法语,指的是一种镶木地板。这种地板是由许多小块木块拼凑而成的,每个木块代表一个数据列。这种比喻形象地说明了Parquet格式的存储方式。Parquet的特点和优......