首页 > 其他分享 >005-spark standalone模式安装

005-spark standalone模式安装

时间:2023-04-03 21:35:39浏览次数:42  
标签:standalone hadoop 192.168 005 spark 2.20 textFile 节点


spark standalone模式不同于单节点本地模式,它有主从节点,分别为Master和worker



Spark standlone规划



Master节点:  192.168.2.20



Worker节点: 192.168.2.20,192.168.2.33





其中: 地址和域名的映射关系为



192.168.2.20 mycluster



192.168.2.33 cloud03







1、spark 下载





官方地址:http://spark.apache.org/downloads.html




005-spark standalone模式安装_spark




2、spark安装


2.1 解压spark


[hadoop@mycluster ~]$ tar -zxvf spark-1.4.0-bin-hadoop2.6.tgz -C app/



2.2 设置主节点地址和JAVA_HOME变量


vi spark-env.sh 


SPARK_MASTER_IP=192.168.2.20


export JAVA_HOME=/home/hadoop/app/jdk1.7.3



2.3 设置从节点地址


vi slaves


192.168.2.20


192.168.2.33



2.4 拷贝spark的目录到其他节点上



备注: 20节点和3节点需要建立ssh免登录。



3、spark standalone启动


在主节点上启动spark standlone模式,执行下面命令


cd  $SPARK_HOME/sbin


./start-all.sh 



8080查看master的工作状态


http://192.168.2.20:8080/



8081查看worker的工作状态


http://192.168.2.20:8081/



3.3 通过jps可以查看主从节点是否启动


[hadoop@mycluster sbin]$ jps
2822 Master
3452 Jps
3354 Worker



[hadoop@cloud03 spark-1.4.0-bin-hadoop2.6]$ jps
2306 Worker
2403 Jps




4、启动spark shell终端


启动成功后,通过4040端口查看job列表和状态,即http://192.168.2.20:4040



5、通过shell下达命令


在本地建立测试文件


[hadoop@mycluster ~]$ cat /home/hadoop/wc.txt
hello   me
hello   you
hello   china
hello   you



加载数据文件,可以是本地路径,也是是HDFS路径或者其它


scala> var textFile = sc.textFile("/home/hadoop/wc.txt");



5.2 列出文件行数


scala> textFile.count();



5.3 列出首行内容


scala> textFile.first()



5.4 过滤


textFile.filter(line => line.contains("me"))

标签:standalone,hadoop,192.168,005,spark,2.20,textFile,节点
From: https://blog.51cto.com/u_14361901/6167558

相关文章

  • 012-01Spark On YARN 环境搭建
    1、Scala安装http://www.scala-lang.org/files/archive/scala-2.10.4.tgztar-zxvfscala-2.10.4.tgz-Capp/cd appln-sscala-2.10.4scala2、Spark安装tar-zxvf spark-1.4.0-bin-hadoop2.6.tgz-Cappln-sspark-1.4.0-bin-hadoop2.6spark#vimspark-......
  • 003-spark名词和架构介绍
    1、Spark名词1、RDD:数据集合2、Application:Spark用户程序3、DriverProgram:运行main函数并且新建SparkContext的程序4、ClusterManager:Spark集群资源调度服务(standlone,mesos,yarn)5、Executor:workernode的一个进程,负责运行任务6、Task:被送到某个e......
  • 001-spark生态系统介绍
    1、Spark简介-概念Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。主要特点:分布式计算内存计算容错多计算......
  • 1005--HBase操作实战(HBase Shell命令行模式)
    通过HBase命令行,创建一张表,用户存储用户信息,其中包括基本信息和额外信息HBaseshell下所有命令可以使用:help“cmd”进行了解1、创建表create't_person',{NAME=>'basic_info'},{NAME=>'extra_info'}2、表中存储数据put't_person','g201425001','ba......
  • Spark面试经典系列之数据倾斜解决方案的“银弹”是什么? 本节我们对Spark数据倾斜解决
    Spark面试经典系列之数据倾斜解决方案的“银弹”是什么?本节我们对Spark数据倾斜解决方案进行回顾和总结:1、   数据倾斜运行的症状和危害。如果发行数据倾斜,往往发现作业任务运行特别缓慢,出现OOM内存溢出等现象。2、   如果两个RDD进行操作,其中1个RDD数据不是那么多,我们把这......
  • Spark视频王家林第119课: Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
    Spark视频王家林第119课:SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?本节讲解SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?数据峰值及流量变化的不稳定有2个层面:1)第一个层面就是数据确实不稳定,例如晚上11点的时候访问流量特别高,相对其他时间而言表......
  • bzoj1969. [AHOI2005] LANE 航线规划 树链剖分+离线逆向处理删边
    保证了无论怎么破坏航线,图都会是一个连通图也就是说,起码肯定有一棵生成树考虑在生成树上U,V之间加边,会对树上各个点的割边情况产生什么影响对于任意点对(u,v),如果它们之间的最短路径不经过从U到V的树上路径,那是没有影响的否则:关键路径的数目会减少减少了多少?U,V之间树上路径经......
  • day 34 1005.K次取反后最大化的数组和 | 134. 加油站 | 135. 分发糖果
    1005.K次取反后最大化的数组和给定一个整数数组A,我们只能用以下方法修改该数组:我们选择某个索引i 并将A[i]替换为-A[i],然后总共重复这个过程K次。(我们可以多次选择同一个索引i。)以这种方式修改数组后,返回数组可能的最大和。示例1:输入:A=[4,2,3],K=1输出:5解释:......
  • Hive 和 Spark 分区策略剖析
    作者:vivo互联网搜索团队-DengJie随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。一、概述随着技术的不断的发展,大数据......
  • Hive 和 Spark 分区策略剖析
    作者:vivo互联网搜索团队-DengJie随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。一、概述随着技术的不断的发展......