spark standalone模式不同于单节点本地模式,它有主从节点,分别为Master和worker
Spark standlone规划
Master节点: 192.168.2.20
Worker节点: 192.168.2.20,192.168.2.33
其中: 地址和域名的映射关系为
192.168.2.20 mycluster
192.168.2.33 cloud03
1、spark 下载
官方地址:http://spark.apache.org/downloads.html
2、spark安装
2.1 解压spark
[hadoop@mycluster ~]$ tar -zxvf spark-1.4.0-bin-hadoop2.6.tgz -C app/
2.2 设置主节点地址和JAVA_HOME变量
vi spark-env.sh
SPARK_MASTER_IP=192.168.2.20
export JAVA_HOME=/home/hadoop/app/jdk1.7.3
2.3 设置从节点地址
vi slaves
192.168.2.20
192.168.2.33
2.4 拷贝spark的目录到其他节点上
备注: 20节点和3节点需要建立ssh免登录。
3、spark standalone启动
在主节点上启动spark standlone模式,执行下面命令
cd $SPARK_HOME/sbin
./start-all.sh
8080查看master的工作状态
http://192.168.2.20:8080/
8081查看worker的工作状态
3.3 通过jps可以查看主从节点是否启动
[hadoop@mycluster sbin]$ jps
2822 Master
3452 Jps
3354 Worker
[hadoop@cloud03 spark-1.4.0-bin-hadoop2.6]$ jps
2306 Worker
2403 Jps
4、启动spark shell终端
启动成功后,通过4040端口查看job列表和状态,即http://192.168.2.20:4040
5、通过shell下达命令
在本地建立测试文件
[hadoop@mycluster ~]$ cat /home/hadoop/wc.txt
hello me
hello you
hello china
hello you
加载数据文件,可以是本地路径,也是是HDFS路径或者其它
scala> var textFile = sc.textFile("/home/hadoop/wc.txt");
5.2 列出文件行数
scala> textFile.count();
5.3 列出首行内容
scala> textFile.first()
5.4 过滤
textFile.filter(line => line.contains("me"))
标签:standalone,hadoop,192.168,005,spark,2.20,textFile,节点 From: https://blog.51cto.com/u_14361901/6167558