首页 > 其他分享 >OpenMLDB v0.8 新功能:离线引擎数据源支持 Amazon S3

OpenMLDB v0.8 新功能:离线引擎数据源支持 Amazon S3

时间:2023-06-01 12:35:15浏览次数:49  
标签:zh S3 数据源 离线 OpenMLDB openmldb Amazon

简介

Amazon S3(以下简称 S3)是一种非常受欢迎的云存储服务,它以其卓越的扩展性、安全性和稳定性而广受全球企业和开发者的喜爱。在新发布的 OpenMLDB v0.8.0 版本中,新增加了对于 Amazon S3 作为离线数据源的支持,其带来的主要好处包括:

  1. 安全性和稳定性:S3 提供高级别的安全保障,以保护您的数据。
  2. 扩展性和灵活性:S3 能够轻松处理任意量级的数据,提供高效的大规模数据管理能力。
  3. 成本效益:只需根据实际使用的存储量来付费,无需为未使用的存储空间付费。

配置方法

为了在 OpenMLDB 中使用 Amazon S3 作为离线数据源,需要做如下配置:

  • 首先需要在 AWS 上注册帐号,并且创建有效的 AccessKey 和 SecretKey。
  • 在 OpenMLDB 的 TaskManager 的部署文件 taskmanager.properties 中,添加以下配置,注意修改内容为个人的 AccessKey 和 SecretKey:
spark.default.conf=spark.hadoop.fs.s3a.access.key=xxx;spark.hadoop.fs.s3a.secret.key=xxx
  • 配置后重启 TaskManager 服务,后续加载离线数据时,无论是硬拷贝还是软链接都可以使用 S3 路径进行导入。

以下“应用实践”展示详细使用步骤。完整产品文档参考: https://openmldb.ai/docs/zh/main/integration/offline_data_sources/s3.html

应用实践

以下具体演示使用 OpenMLDB 直接访问 S3 数据进行特征抽取,并使用软链接方式避免从 S3 拷贝原始数据到本地。

第一步,注册 AWS 帐号,开通 S3 服务,并且申请可用的 AccessKey 和 SecretKey。 准备好后,我们可以使用浏览器或 S3 工具来上传数据到 S3 对应的 bucket 中,这里我们提前上传好数据文件。

file

第二步,启动 OpenMLDB 集群,按照官方文档配置好 AWS 的 AccessKey 和 SecretKey,启动后可以使用命令行(OpenMLDB CLI)的命令 SHOW COMPONENTS 测试 OpenMLDB 所有组件是否正常。

关于 OpenMLDB CLI 的使用参考:https://openmldb.ai/docs/zh/main/quickstart/cli.html

file

第三步,创建数据库和数据表进行测试。 这里创建一个数据库 db1 和数据表 t1

file

第四步,使用 LOAD DATA INFILE 命令导入 S3 的数据到离线表中。 下图演示了把 OpenMLDB 设置为离线模式,并且导入 S3 的数据到离线表中:

file

导入成功后,可以看到数据表的离线存储中 symbolic paths 已经添加了 S3 的数据路径,而没有实际的数据拷贝。

第五步,我们可以使用 OpenMLDB SQL 进行离线特征抽取,直接读取 S3 上面的数据,并且把计算后的特征到处到本地进行模型训练,下面演示最简单的SQL例子。

file

此外,OpenMLDB 也支持把 S3 的数据导入到在线表中, 用于服务上线的冷启动。下图演示了把 OpenMLDB 设置为在线模式,并且导入 S3 的数据到在线表中:

file

相关阅读

file

标签:zh,S3,数据源,离线,OpenMLDB,openmldb,Amazon
From: https://www.cnblogs.com/4paradigm-opensource/p/17448594.html

相关文章

  • 基于CentOS7系统Docker19.03.15离线安装
    一、离线安装(1)去官网下载docker安装二进制包,选择适合自己的版本。这里下载的是docker-19.03.15.tgz,下载地址:https://download.docker.com/linux/static/stable/x86_64/(2)将安装包上传至安装机器(3)解压tar-xfdocker-19.03.15.tgz(4)将解压后的文件移至/usr/bin/......
  • python离线下载安装第三方包
    下载离线安装包#dpackages选项表示将多个文件保存在packages文件夹下例:下载requestspipdownloadrequests-dpackages-ihttps://pypi.tuna.tsinghua.edu.cn/simple安装离线包#--find-links=路径选项来指定寻找依赖的路径,--no-index选项表示不要检查PyPI,以requests包......
  • Linux centos 7 离线安装docker
     1.下载docker下载地址:https://download.docker.com/linux/static/stable/选择服务器架构 2.查看服务器架构 uname-a 3.上传下载文件到服务器并解压tar-zxf文件4.拷贝docker文件值/usr/bincpdocker/*/usr/bin/5.进入/etc/systemd/system/目录,并创建dock......
  • 中兴新支点系统离线安装ceph 16.2.10
    微信公众号:运维开发故事,作者:wanger关于中兴新支点系统中兴新支点操作系统基于Linux稳定内核,分为嵌入式操作系统(NewStartCGEL)、服务器操作系统(NewStartCGSL)、桌面操作系统(NewStartNSDL),经过近10年专业研发团队的积累和发展,产品形成安全加固、自主可控、易用管理的突出优势。目前,......
  • el-cascader 切换数据源时报错
    问题根据属性类型加载el-cascader不同的数据源选项,会报错如下:尝试猜测是:el-cascader上次的绑定值没有清空,而切换属性类型导致数据源选项不同,以致于无法在新的选项中找到绑定值,从而报错。于是,设置了切换属性类型时,把el-cascader的绑定值重置为[]。但仍然存在这个报错。......
  • VS Code离线安装方法
    问题描述在VisualStudioCode插件市场下载的.vsix插件安装包在离线环境中双击安装不上。查看日志也没说具体原因:VSIXInstaller.NoApplicableSKUsException:一个或多个扩展适用于VisualStudioCode。请尝试在VisualStudioCode中安装它们。解决方案方案一:VisualStudi......
  • mybatis配置多数据源
    yml中配置mybatis的日志输出信息mybatis:#springboot集成mybatis的方式打印sqlconfiguration:log-impl:org.apache.ibatis.logging.stdout.StdOutImplmaven引入相关的配置<dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>my......
  • hdu 3874(树状数组+离线算法)
    解题思路:这道题和之前的题一样,查找[l,r]区间内不重复数字的和。可以利用离线算法,实际上离线算法为了解决在查找时出现的矛盾,因为每次询问的区间大小不同,如果单独处理的话可能会对之后的查询有影响,所以离线算法帮助我们把要查询的区间先按照右端点进行排序,因为在处理更靠右的区间时,......
  • hdu 4417(树状数组+离线算法)
    解题思路:这道题要求某区间内比h小的个数,其实这里可以类似于树状数组求逆序数那样。关键是如何转换成树状数组的模型,这才是本题的难点。我们首先分析,如果知道h在该区间的哪个位置,那么剩下的就很好做了。我们还可以发现,如果找到了当前的比h小的所有点(大于的点我们先忽略掉),那么我们就......
  • sas3008刷新fw方法
    说明sas3008卡可以进行it模式和ir模式刷新,it代表纯直通卡,ir可以支持简单的raid功能,raid0\1等,同时必须要记住你要刷新的sas卡的IPaddress,卡上写的有。刷新方法本文介绍,在shellefi下进行fw升级1、将升级文件放在U盘内,开机自检F11选择启动项,不同机器快捷键不同,有的是F10,注意观察自建......