默认dremio 支持了azure,aws,gcs 等存储的访问,但是对于oss 是缺少支持的,实际上都是类似的对象存储
可选模式
- 直接使用aws s3 模式链接
通过测试是可以的,但是需要进行一些配置,参考如下
- 通过minio s3 gateway
很简单,但是注意minio 版本(新版本已经一处了gateway 模式的支持了)
参考配置(通过docker-compose 运行)
version: "3"
services:
gateway:
image: minio/minio:RELEASE.2022-08-13T21-54-44Z
command: gateway s3 https://oss-cn-beijing.aliyuncs.com --console-address ":9001"
ports:
- "9000:9000"
- "9001:9001"
environment:
- "MINIO_ACCESS_KEY=xxxxx"
- "MINIO_SECRET_KEY=xxxx"
- 开发自己的oss 存储扩展
可以参考aws s3 存储扩展修改,可选的模式比较多,比如直接的oss hadoop 集成,或者高速JindoFS 模式 - 使用阿里云 hadf oss 集成模式
此模式后边是通过hdfs 链接的 - 通过nas 模式集成
通过文件网关将oss 暴露为文件系统,此模式不是很方便,需要独立挂载 - juicefs 的s3 gateway 模式
这种模式是一个方法,但是链路有点太长了,个人并不是很推荐,肯定是可以通的
说明
以上是关于dremio 集成oss 的几种方法,核心上基本上是两大类,基于oss 的s3 兼容模式(包含了Gateway或者直接连接的)通过文件系统挂载模式的
参考资料
https://github.com/apache/hadoop/blob/trunk/hadoop-tools/hadoop-aliyun/src/site/markdown/tools/hadoop-aliyun/index.md
https://help.aliyun.com/document_detail/199488.html