首页 > 其他分享 >Spark安装

Spark安装

时间:2022-11-02 22:55:06浏览次数:48  
标签:安装 文件夹 export usr HOME Spark local spark

1 安装JDK(jdk-8u281-linux-x64.tar.gz) ,上传并解压到/usr/lib/jdk1.8/jdk1.8.0_281 

2 安装Hadoop(hadoop-3.2.1.tar.gz),上传并解压到/usr/local/hadoop-3.2.1

3安装Spark(spark-3.1.2-bin-hadoop3.2.tar.gz),上传并解压到/usr/local/spark

此步进行解压须得先在/usr/local里创建文件夹spark以致可以将解压好的关于spark文件集中存放在文件夹spark中。(因为spark解压后不止一个文件夹,如若不提前创建文件夹spark的话会在下一步进行环境配置变量时无法将spark的路径进行明确标定。)

关于解压缩的规范写作:

cd /mnt/hgfs/share #注意区分大小写字母,JDK安装包所在位置

sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jdk1.8 #把JDK文件解压到/usr/lib/jdk1.8目录下

 sudo tar -zxf ~/下载/apache-flume-1.9.0-bin.tar.gz -C /usr/local

4配置环境变量

vim /etc/profile

在配置文件(/etc/profile)末尾添加: 

export JAVA_HOME=/usr/local/jdk1.8/jdk1.8.0_281     (根据自己文件的路径进行修改)
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jar
export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/hadoop-3.2.1   (同上)
export PATH=$PATH:$HADOOP_HOME/bin

export SPARK_HOME=/usr/local/spark   (同上)
export PATH=$PATH:$SPARK_HOME/bin

保存关闭刷新
source /etc/profile

5启动pyspark交互式环境

pyspark

显示状况如下:

 会出现的问题如下:

解决方法:哪儿权限不够修改哪儿(sudo chmod 777 文件夹名)

6运行Demo

./spark-submit --master local[*] /usr/local/spark/examples/src/main/python/pi.py 10     (此命令不是写在spark标志出来所形成的三个箭头后面的,和普通命令一样写在目录之下)

结果显示如下:

 

 

配置本地pyspark

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

可能会出现一些问题,以下是我出现问题的部分解决实验步骤,都是在网上进行copy的,大家可以根据自己实验所出现的问题进行修改。

运行pyspark代码步骤如下:

代码如下:

from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
conf = SparkConf() \
.setMaster('local[*]') \
.setAppName("wordcount")

sc = SparkContext(conf=conf)

rdd = sc.textFile("/usr/local/spark/test/1.txt") \
.flatMap(lambda x: x.split(" ")) \
.map(lambda x:(x,1)) \
.reduceByKey(lambda a,b:a+b)

print(rdd.collect())
sc.stop()

 

 

首先我在我的电脑/usr/local/spark中创建了文件夹test,并在文件夹test中创建了文件1.txt,其中文件的内容是hello world !!!!!    (文件名必须以.txt为后缀结尾,因为此代码设置的文件类型是textFile)。

然后在文件夹python中创建以.py为后缀的文件方便代码的存放及运行。

 最终运行结果如下:

 

 

 

 

标签:安装,文件夹,export,usr,HOME,Spark,local,spark
From: https://www.cnblogs.com/peak213/p/16849460.html

相关文章

  • CAD安装包2023软件中文汉化版安装教程
    1.鼠标右击【CAD2023】压缩包(Win11系统需先点击“显示更多选项”)选择【解压到CAD2023】。2.打开解压后的文件夹,双击打开【CAD2023】文件夹。3.鼠标右击【Setup】选择【管......
  • MYSQL-安装
    1、下载地址https://downloads.mysql.com/archives/community/2、解压3、下图目录下创建一个my.ini文件写入下方内容[mysql]default-character-set=utf8[mysqld]......
  • windows下gtk3.0下载及安装过程
    msys下载地址:http://www.msys2.org/要求Windows版本GTK+需要WindowsVista或更高版本。对于旧版本的Windows,您应该自定义构建旧版本的GLib和GTK+。安装GTK+及......
  • windows下gtk3.0下载及安装过程_F_hawk189_新浪博客
    msys下载地址:http://www.msys2.org/要求Windows版本GTK+需要WindowsVista或更高版本。对于旧版本的Windows,您应该自定义构建旧版本的GLib和GTK+。安装GTK+及......
  • 如何免安装使用 Python?推荐 17 个在线的 Python 解释器!
    作者:AlSweigart译者:豌豆花下猫@Python猫英文:https://inventwithpython.com/blog/2022/10/30/17-online-python-ides-and-interactive-shellsrepls转载请保留作者及译......
  • 安装 openstack
    一、openstack组件1.Horizon管理openstack各种服务,基于web管理接口2.Keystone管理认证,提供授权和认证管理服务3.Nova在节点上管理虚拟机的服务4.Neutron软件定义网......
  • Hadoop安装-分布式-Fully
    Hadoop安装-分布式-Fully〇、所需资料一、配置1、基础配置(1)系统安装(2)hostname主机名配置(3)ip地址、dns、hosts映射文件配置(4)关闭防火墙与selinux(5)开启ntpd时钟同步......
  • Ubuntu安装Docker及镜像加速器
    一、安装Dockersudoapt-getupdate&&sudoapt-getinstall-yapt-transport-httpsca-certificatescurlsoftware-properties-common&&curl-fsSLhttps://downloa......
  • linux-01 CenOS和VM安装配置
    1.下载centos系统ISO镜像要安装centos系统,就必须得有centos系统软件安装程序,可以通过浏览器访问centos官网http://www.centos.org,然后找到Downloads -> mirrors链接,......
  • centos7离线安装PHP7
    环境centos7.9PHP7.4.30准备工作在编译PHP时会提示一些包版本不够或者缺少某些包,一般选择yum来安装缺少的包,但因为是离线安装,所以可以手动配置本地yum源。先看一下系统......