005-spark standalone模式安装

时间：2023-04-03 21:35:39浏览次数：42

标签：standalone hadoop 192.168 005 spark 2.20 textFile 节点

spark standalone模式不同于单节点本地模式，它有主从节点,分别为Master和worker

Spark standlone规划

Master节点： 192.168.2.20

Worker节点： 192.168.2.20,192.168.2.33

其中：地址和域名的映射关系为

192.168.2.20 mycluster

192.168.2.33 cloud03

1、spark 下载

官方地址：http://spark.apache.org/downloads.html

005-spark standalone模式安装_spark

2、spark安装

2.1 解压spark

[hadoop@mycluster ~]$ tar -zxvf spark-1.4.0-bin-hadoop2.6.tgz -C app/

2.2 设置主节点地址和JAVA_HOME变量

vi spark-env.sh

SPARK_MASTER_IP=192.168.2.20

export JAVA_HOME=/home/hadoop/app/jdk1.7.3

2.3 设置从节点地址

vi slaves

192.168.2.20

192.168.2.33

2.4 拷贝spark的目录到其他节点上

备注： 20节点和3节点需要建立ssh免登录。

3、spark standalone启动

在主节点上启动spark standlone模式，执行下面命令

cd $SPARK_HOME/sbin

./start-all.sh

8080查看master的工作状态

http://192.168.2.20:8080/

8081查看worker的工作状态

http://192.168.2.20:8081/

3.3 通过jps可以查看主从节点是否启动

[hadoop@mycluster sbin]$ jps
2822 Master
3452 Jps
3354 Worker

[hadoop@cloud03 spark-1.4.0-bin-hadoop2.6]$ jps
2306 Worker
2403 Jps

4、启动spark shell终端

启动成功后，通过4040端口查看job列表和状态，即http://192.168.2.20:4040

5、通过shell下达命令

在本地建立测试文件

[hadoop@mycluster ~]$ cat /home/hadoop/wc.txt
hello   me
hello   you
hello   china
hello   you

加载数据文件，可以是本地路径，也是是HDFS路径或者其它

scala> var textFile = sc.textFile("/home/hadoop/wc.txt");

5.2 列出文件行数

scala> textFile.count();

5.3 列出首行内容

scala> textFile.first()

5.4 过滤

textFile.filter(line => line.contains("me"))

标签：standalone,hadoop,192.168,005,spark,2.20,textFile,节点
From： https://blog.51cto.com/u_14361901/6167558

012-01Spark On YARN 环境搭建
1、Scala安装http://www.scala-lang.org/files/archive/scala-2.10.4.tgztar-zxvfscala-2.10.4.tgz-Capp/cd appln-sscala-2.10.4scala2、Spark安装tar-zxvf spark-1.4.0-bin-hadoop2.6.tgz-Cappln-sspark-1.4.0-bin-hadoop2.6spark#vimspark-......
003-spark名词和架构介绍
1、Spark名词1、RDD：数据集合2、Application：Spark用户程序3、DriverProgram：运行main函数并且新建SparkContext的程序4、ClusterManager：Spark集群资源调度服务（standlone，mesos，yarn）5、Executor:workernode的一个进程，负责运行任务6、Task：被送到某个e......
001-spark生态系统介绍
1、Spark简介-概念Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。主要特点：分布式计算内存计算容错多计算......
1005--HBase操作实战（HBase Shell命令行模式）
通过HBase命令行，创建一张表，用户存储用户信息，其中包括基本信息和额外信息HBaseshell下所有命令可以使用：help“cmd”进行了解1、创建表create't_person',{NAME=>'basic_info'},{NAME=>'extra_info'}2、表中存储数据put't_person','g201425001','ba......
Spark面试经典系列之数据倾斜解决方案的“银弹”是什么？本节我们对Spark数据倾斜解决
Spark面试经典系列之数据倾斜解决方案的“银弹”是什么？本节我们对Spark数据倾斜解决方案进行回顾和总结：1、数据倾斜运行的症状和危害。如果发行数据倾斜，往往发现作业任务运行特别缓慢，出现OOM内存溢出等现象。2、如果两个RDD进行操作，其中1个RDD数据不是那么多，我们把这......
Spark视频王家林第119课： Spark Streaming性能优化：如何在生产环境下应对流数据峰值巨变
Spark视频王家林第119课：SparkStreaming性能优化：如何在生产环境下应对流数据峰值巨变？本节讲解SparkStreaming性能优化：如何在生产环境下应对流数据峰值巨变？数据峰值及流量变化的不稳定有2个层面：1）第一个层面就是数据确实不稳定，例如晚上11点的时候访问流量特别高，相对其他时间而言表......
bzoj1969. [AHOI2005] LANE 航线规划树链剖分+离线逆向处理删边
保证了无论怎么破坏航线，图都会是一个连通图也就是说，起码肯定有一棵生成树考虑在生成树上U，V之间加边，会对树上各个点的割边情况产生什么影响对于任意点对(u,v)，如果它们之间的最短路径不经过从U到V的树上路径，那是没有影响的否则：关键路径的数目会减少减少了多少？U，V之间树上路径经......
day 34 1005.K次取反后最大化的数组和 | 134. 加油站 | 135. 分发糖果
1005.K次取反后最大化的数组和给定一个整数数组A，我们只能用以下方法修改该数组：我们选择某个索引i 并将A[i]替换为-A[i]，然后总共重复这个过程K次。（我们可以多次选择同一个索引i。）以这种方式修改数组后，返回数组可能的最大和。示例1：输入：A=[4,2,3],K=1输出：5解释：......
Hive 和 Spark 分区策略剖析
作者：vivo互联网搜索团队-DengJie随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。一、概述随着技术的不断的发展，大数据......
Hive 和 Spark 分区策略剖析
作者：vivo互联网搜索团队-DengJie随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。一、概述随着技术的不断的发展......

005-spark standalone模式安装

相关文章

赞助商

阅读排行