首页 > 编程语言 >7.Python Spark安装

7.Python Spark安装

时间:2024-03-28 22:55:26浏览次数:30  
标签:hduser pyspark Python 安装 sudo usr Spark local spark

7.1Scla安装

下载:wget https://scala-lang.org/files/archive/scala-2.13.0.tgz

解压:tar xvf scala-2.13.0.tgz

移动到/usr/local 目录 :sudo mv scala-2.13.0 /usr/local/scala

设置Scala环境变量:

sudo gedit ~/.bashrc

 source ~/.bashrc

启动scala

 :q退出

7.2安装Spark

wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.4.2/spark-3.4.2-bin-hadoop3.tgz

解压:tar zxf spark-3.4.2-bin-hadoop3.tgz

移动到/usr/local下:sudo mv spark-3.4.2-bin-hadoop3 /usr/local/spark/

编辑~/.bashrc:sudo gedit ~/.bashrc

source ~/.bashrc

7.3启动pyspark交互式界面

pyspark

 8.5设置pyspark显示信息

cd /usr/local/spark/conf

cp log4j2.properties.template log4j2.properties

sudo gedit log4j2.properties,把橙色的地方改成WARN

 7.5 创建测试文件

 启动Hadoop Multi-Node Cluster,依次执行:

cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input

ll ~/wordcount/input

hadoop fs -mkdir -p /user/hduser/wordcount/input

cd ~/wordcount/input

hadoop fs -copyFromLocal LICENSE.txt /user/hduser/wordcount/input

hadoop fs -ls /user/hduser/wordcount/input

 7.6本地运行pyspark程序

pyspark --master local[4]

读取本地文件

 读取HDFS文件

 7.7在Hadoop YARN 运行pyspark

关闭hadoop安全模式

HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop pyspark --master yarn --deploy-mode client

 读取HDFS文件:textFile=sc.textFile("hdfs://master:9000/user/hduser/wordcount/input/LICENSE.txt")

可以在Hadoop Web界面查看PySparkShell App

 7.8构建Spark Standalone Cluster运行环境

复制模板文件:

cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh

编辑spark-env.sh:sudo gedit /usr/local/spark/conf/spark-env.sh

连接data1:ssh data1

创建spark目录:sudo mkdir /usr/local/spark

更改所有者为hduser:sudo chown hduser:hduser /usr/local/spark

使用scp把master的spark程序复制到data1:sudo scp -r /usr/local/spark hduser@data1:/usr/local

 data2同样操作一遍。

编辑spark/conf/workers文件

cp /usr/local/spark/conf/workers.template /usr/local/spark/conf/workers

sudo gedit /usr/local/spark/conf/workers

 7.9在Spark Standalone 运行 pyspark

/usr/local/spark/sbin/start-all.sh

 z在Spark Standalone 运行 pyspark

pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor-memory 512m

 读取文件

 7.9Spark Web UI 界面

http://master:8080/

可以查看worker和job详细信息

 

 

标签:hduser,pyspark,Python,安装,sudo,usr,Spark,local,spark
From: https://www.cnblogs.com/leexiao/p/18102634

相关文章

  • python环境搭建
    python环境搭建注:windowsancondapycharm2023.3.3IDLEJupyter2024.3.28日亲测,个人记录,仅供参考。目录python环境搭建环境搭建Anaconda+pycharm修改conda默认创建的虚拟环境(默认存C盘)存至C盘外AnacondaPrompt命令IDLEjupyter安装安装好的jupyter环境,只会有从官网下......
  • Python机器学习从入门到高级:导入数据(包含数据库连接)
    python数据科学系列https://developer.aliyun.com/article/1174199 ......
  • 新机器安装docker (新手笔记)-- 知其所以然
    1.安装Docker-2024.03.28官方手册清华大学开源软件镜像站|可从主页找到Docker资源#AddDocker'sofficialGPGkey:sudoapt-getupdatesudoapt-getinstallca-certificatescurlsudoinstall-m0755-d/etc/apt/keyringssudocurl-fsSLhttps://download.docker......
  • Python中模块
    基本概念**模块module:**一般情况下,是一个以.py为后缀的文件①Python内置的模块(标准库);②第三方模块;③自定义模块。包package:当一个文件夹下有   init   .py时,意为该文件夹是一个包(package),其下的多个模块(module)构成一个整体,而这些模块(module)都可通过同一个包(packa......
  • 盲水印脚本安装说明_bwm、_bwmforpy
    此工具需要python2/python3脚本下载地址https://gitcode.com/chishaxie/BlindWaterMark/tree/master?utm_source=csdn_blog_hover直接下载压缩包解压在python里面添加两个库,python.exe目录上方输入cmdpipinstallopencv-pythonpython.exe-mpipinstallmatplotlib我......
  • 【华为OD机试真题】A卷-士兵过河(Python)
    一、题目描述【华为OD机试真题】A卷-士兵过河(Python)题目描述:一支N个士兵的军队正在趁夜色逃亡,途中遇到一条湍急的大河。敌军在T的时长后到达河面,没到过对岸的士兵都会被消灭。现在军队只找到了1只小船,这船最多能同时坐上2个士兵。1)当1个士兵划船过河,用时为a[i];0<=i<......
  • Python math 模块
    Pythonmath模块Python math 模块提供了许多对浮点数的数学运算函数。math 模块下的函数,返回值均为浮点数,除非另有明确说明。如果你需要计算复数,请使用 cmath 模块中的同名函数。要使用math函数必须先导入:importmath查看math模块中的内容:importmathprint......
  • Python3 迭代器与生成器
    在Python中,迭代器(Iterator)是一个用于迭代访问集合元素的对象。迭代器会记住遍历的位置,使得我们可以依次访问集合中的每个元素而不必了解集合内部结构。在Python中,内置的​iter()​函数用于从可迭代对象(如字符串、列表、元组等)中创建迭代器,而​next()​函数则用于获取迭代器......
  • 安装 Visual C++ 可再发行组件包的简单方法
    安装VisualC++RedistributablePackages的最佳方法安装对Wampserver(以及许多其他软件)至关重要的VC++可再发行组件的最简单、最简单、最不容易出错、最快的方法是使用一个程序,该程序通过单个可执行文件安装所需的所有内容。不,这不是乌托邦!它存在,它是名为VisualCppRedistA......
  • Django框架之Django的安装与使用
    首先我们需要先确定好自己电脑上的python解释器环境,否则会导致后面项目所需要的库安装不了以及项目无法运行的问题。一、Django框架下载要下载Django并开始使用它,你可以按照以下步骤进行:1、安装Python首先,确保你的计算机上已经安装了Python。你可以从Python官方网站下载最......