首页 > 其他分享 >pandas 加载minio 文件数据

pandas 加载minio 文件数据

时间:2023-10-01 09:11:20浏览次数:42  
标签:minio s3 storage https parquet pandas 加载

就是一个简单记录,基于s3 进行文件存储还是比较方便的

环境准备

  • docker-compose.yaml
version: '3'
services:
  minio:
    image: minio/minio
    ports:
      - "9002:9000"
      - "19001:19001"
    environment:
      MINIO_ACCESS_KEY: minio
      MINIO_SECRET_KEY: minio123
    command: server --console-address :19001 --quiet /data
  • requirements.txt
    主要是依赖,方便通过venv 安装
 
pandas
s3fs
fsspec
pyarrow

读取&效果

  • s3app.py
import pandas as pd
parquet_file = 's3://demo/file2.parquet'
storage_conf = {'endpoint_url':'http://localhost:9002',"key":"minio","secret":"minio123"}
result = pd.read_parquet(parquet_file, engine='pyarrow',storage_options=storage_conf)
print(result.head())
  • 效果

说明

pandas 对于s3 的读取依赖了fsspec,同时实际读取需要安装对应的s3 实现

参考资料

https://s3fs.readthedocs.io/en/latest/
https://filesystem-spec.readthedocs.io/en/latest/
https://pandas.pydata.org/docs/reference/api/pandas.read_parquet.html

标签:minio,s3,storage,https,parquet,pandas,加载
From: https://www.cnblogs.com/rongfengliang/p/17738591.html

相关文章

  • pandas -- 处理非数值型数据 -- 数据分析三剑客(核心)
    博客地址:https://www.cnblogs.com/zylyehuo/为什么学习pandasnumpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢?numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列),那么pandas就可以帮我们很好......
  • Cesium加载三维模型rendering.Rendering has stopped
    使用Cesium加载数据量大、精度高的三维模型数据经常在运行一段时间后,会报如下错误:Anerroroccurredwhilerendering.Renderinghasstopped.TypeError:Failedtoexecute'shaderSource'on'WebGLRenderingContext':parameter1isnotoftype'WebGLShader'.这是由于GPU......
  • Go每日一库之145:MinIO(高性能对象存储)
    1.MinIO简介MinIO是一个基于Go实现的高性能、兼容S3协议的对象存储。它采用GNUAGPLv3开源协议,项目地址是https://github.com/minio/minio,官网是https://min.io。它适合存储海量的非结构化的数据,例如说图片、音频、视频等常见文件,备份数据、容器、虚拟机镜像等等,小......
  • ​​pandas.get_dummies()​​ 是一个用于执行独热编码(One-Hot Encoding)的 pandas 函
    pandas.get_dummies()是一个用于执行独热编码(One-HotEncoding)的pandas函数。它用于将分类(或离散)特征转换为模型可以处理的二进制格式,以便更好地在机器学习算法中使用。独热编码将每个不同的类别值转换为一个新的二进制特征列,其中每个列代表一个类别,并且只有一个值为1,其余为0......
  • OceanDB-Miniob内部培训
    概述计算机三大软件=OS+DB+Compiler教学课程表基础版进阶版数据库入门MiniOBSqlite抽象思想接口(逻辑层)+实现内核(物理层)接口:逻辑物理层方便切分严格:数学概念,闭环数据模型清晰:所有模型都用关系表示数据库发展Oceanbase=NoSQL+HTAPMinoOB介绍......
  • Redis加载其他模块
    加载第三方模块gitclonehttps://github.com/wujunze/redis-module-panda.gitmakedockercppanda.soredis:/如果网络不好,下载不下来,可以下载到windows下,通过scp工具上传到服务器。make之后生成panda.so文件,拷贝到容器内部。两种加载方式启动时加载redis.conf添......
  • 视频汇聚平台EasyCVR从一分屏切换到四分屏后加载记录显示黑屏该如何解决?
    视频汇聚/视频云存储/集中存储/视频监控管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、云存储、智能分析等,视频智能分析平台EasyCVR融合性强、开放度高、部署轻快,在智慧工地、智慧园区、智慧......
  • Java的类加载顺序
    1.类加载器Java虚拟机的类加载过程是由类加载器(ClassLoader)来实现的。类加载器负责将类装载到内存中,并为其创建一个Class对象。Java虚拟机定义了三种类加载器,分别为BootstrapClassLoader、ExtensionClassLoader、SystemClassLoader,它们按照层次关系进行组织,而且每个类加载器......
  • pandas读取一个文件夹下所有excel表格中的第三个sheet,怎么破?
    大家好,我是皮皮。一、前言前几天在Python最强王者交流群【wen】问了一个Python自动化办公的问题,一起来看看吧。请教,pandas读取一个文件夹下所有excel表格中的第三个sheet,但是不同的excel的第三个sheetname也不同,怎么设定参数比较方面呢?二、实现过程这里【哎呦喂 是豆子~】......
  • 案例实操基础版--加载数据+数据清洗(5W条数据)
    我看到了这个跟着实操一下!1、加载数据(已经提供了csv文件)建库建表--->这个比较简单,根据文件的字段名创建合适的表;createtablemsg(msg_timestringcomment"消息发送时间",sender_namestringcomment"发送人昵称",sender_accountstringcomment"发送人帐......