首页 > 其他分享 >从0到1搭建DeltaLake大数据平台

从0到1搭建DeltaLake大数据平台

时间:2024-10-16 19:00:11浏览次数:6  
标签:sudo 平台 bashrc delta sparkuser home spark DeltaLake 搭建

1. 下载VMWare, 安装CentOS9虚拟机

2. 配置用户,创建目录

1. 以管理员身份登录,创建Spark用户给Spark使用

  

sudo adduser sparkuser

2. 修改新用户密码 (123456)

  

sudo passwd sparkuser

  

3. 给新用户Sparkuser Sudo权限

  切换到Root: su -

  给sparkuser权限: sparkuser ALL=(ALL) NOPASSWD:ALL

  退出保存: :qw

4. 以新建的sparkuser用户登录,创建Spark目录

  

sudo mkdir /opt/spark

  

5. 修改spark目录owner为sparkuser

  

sudo chown -R sparkuser:sparkuser /opt/spark

  

3. 下载spark包,上传到虚拟机,解压到spark目录

  

sudo tar -xvzf spark-3.5.3-bin-hadoop3.tgz -C /opt/spark --strip-components=1

  

(The --strip-components=1 option removes the top-level directory from the extracted files, so they go directly into /opt/spark.)

  sudo chown -R sparkuser:sparkuser /opt/spark

4. 设置环境变量

Add Spark to your PATH by editing the .bashrc or .bash_profile of the Spark user.

echo "export SPARK_HOME=/opt/spark" >> /home/sparkuser/.bashrc

echo "export PATH=\$PATH:\$SPARK_HOME/bin" >> /home/sparkuser/.bashrc

source /home/sparkuser/.bashrc

  

5. JAVA Setup

  安装Java

  

sudo yum install java-11-openjdk-devel

  

  查看版本

  

java -version

  

  查看路径

  

readlink -f $(which java)

  

  设置环境变量

  

echo "export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.20.1.1-2.el9.x86_64" >> /home/sparkuser/.bashrc

echo "export PATH=$JAVA_HOME/bin:$PATH" >> /home/sparkuser/.bashrc

source /home/sparkuser/.bashrc

  

6. 启动Spark

  

spark-shell

  

7. 启动spark deltalake

  

bin/spark-shell --packages io.delta:delta-spark_2.12:3.2.0 \
--conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \
--conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"

  

8. 测试deltalake

val data = spark.range(0, 5)
data.write.format("delta").save("/tmp/delta-table")

  

 

标签:sudo,平台,bashrc,delta,sparkuser,home,spark,DeltaLake,搭建
From: https://www.cnblogs.com/xgc521/p/18470100

相关文章

  • rust学习一、入门之搭建简单开发环境
    最近希望学习一些新的,选择了rust.本篇介绍怎么搭建一个非常简单的windows开发环境,以及如何使用cargo命令1、搭建开发环境(windows11)a.登录官网https://www.rust-lang.org/tools一看就明白,此处略。b.安装rustup一看就明白,此处略。c.安装cargoscriptcargoinstallcargo......
  • 数字农业与遥感监测平台
    随着全球人口的增长和气候变化的挑战,农业的可持续发展变得尤为重要。数字农业作为现代农业发展的重要方向,正逐渐成为提高农业生产效率、保障粮食安全的关键手段。遥感技术作为数字农业的重要组成部分,通过监测作物生长状况、土壤湿度、病虫害等信息,为农业生产提供了强有力的数据......
  • Gstreamer系列(5):Gstreamer在arm平台(Nano, Orin, Xavier等)使用硬编码对视频进行保存mp
            在工程实践中,通常使用使用英伟达版板卡作为图像处理的控制器,常见的有xavier,TX2,orin,Nano等,这些控制器使用Gstreamer进行硬件编码的插件通常为omxh264enc,nvv4l2h264enc。本文将基于这两个插件进行介绍区别,并给出使用示例本。本系列其他文章有:Gstreamer系......
  • pikachu靶场搭建
    写在前面“如果你想搞懂一个漏洞,比较好的方法是:你可以自己先制造出这个漏洞(用代码编写),然后再利用它,最后再修复它”。Pikachu是一个带有漏洞的Web应用系统,在这里包含了常见的web安全漏洞。如果你是一个Web渗透测试学习人员且正发愁没有合适的靶场进行练习,那么Pikachu可能正合你......
  • 开发者故事:基于 KubeSphere LuBan 架构打造下一代云交付平台
    前言在KubeSphereMarketplace,个人开发者的创意和才能正在逐渐崭露头角。今日,我们荣幸地向大家介绍Shipper云交付平台的开发者——凌波,一位云原生领域的资深专家。凌波巧妙融合KubeSphere平台的特性,通过原生适配的精湛技艺,匠心独运地打造了Shipper平台。现在,让我们一同走......
  • 关于驰骋BPM平台对接百度云OCR识别的操作介绍
    前言        在当今数字化时代,高效准确地处理信息至关重要。驰骋BPM平台与百度云OCR识别的对接,为用户带来了强大的文档识别和数据提取能力。一、准备工作拥有百度云账号:首先,你需要注册一个百度云账号(https://console.bce.baidu.com/),并开通百度云OCR服务。在百......
  • vite+ts搭建的项目,@配置失效的解决办法
    今天创建新项目,按照往常的管理去配置@别名安装依赖:因为path是node中的模块,node又不支持ts,所以:yarnadd@types/node或者npmi@types/node然后进vite.config.ts,添加添加@别名resolve:{alias:{'@':resolve(__dirname,'src')}}其实到这里,就可以......
  • 【实战】从零开始打造一个低代码平台——8、全局状态管理2
    文章目录前言一、扩展控件二、定义控件库二、扩展WidgetStore三、扩展WidgetBar四、Canvas从全局数据管理获取组件五、SideBar屏幕切换总结前言前一章我们开始引入了全局状态管理,扩展了侧边栏显示屏幕列表,但拖拽到屏幕的组件还没有同步用全局数据。这一章我们把相关......
  • 基于数据可视化+SpringBoot+Vue的考研备战交流与分享平台设计和实现(源码+论文+部署讲
     博主介绍:✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs......
  • 10月报名 | 海克斯康ODYSSEE平台:AI/ML在仿真中的应用培训
    您好!感谢您长期以来对优飞迪科技与海克斯康的关注与支持。我们诚邀您参加10月24日-25日的海克斯康ODYSSEE平台:AI/ML在仿真中的应用培训培训,本次培训将为您带来ODYSSEE模块、功能及应用案例介绍,ODYSSEECAE功能培训等精彩内容,并辅以联合仿真实操帮助您更好了解ODYSSEE这款跨学......