004-spark local模式

时间：2023-04-03 21:35:55浏览次数：39

标签：启动 scala 004 sc spark txt local line

spark local 模式在window或者linux下都一样，都是启动一个节点，只能用于测试。

1、下载Spark

官方地址：http://spark.apache.org/downloads.html

004-spark local模式_scala

2、window 7 下解压，然后点击“”启动spark

004-spark local模式_spark_02

3、spark验证是否启动成功

004-spark local模式_加载_03

4、spark计算验证

4.1 加载文本信息

加载一个或者多个文件，使用spark需要上下文对象sc

scala> var file=sc.textFile("d:/test/a.txt").collect

004-spark local模式_scala_04

4.2 可以使用-master启动多个线程

004-spark local模式_加载_05

4.3 单词统计

scala> sc.textFile("d:/test/a.txt").flatMap( line=>line.split("\\t") ).map( word=>(word,1) ).reduceByKey(_ + _).collect

004-spark local模式_spark_06

标签：启动,scala,004,sc,spark,txt,local,line
From： https://blog.51cto.com/u_14361901/6167557

005-spark standalone模式安装
sparkstandalone模式不同于单节点本地模式，它有主从节点,分别为Master和workerSparkstandlone规划Master节点： 192.168.2.20Worker节点：192.168.2.20,192.168.2.33其中：地址和域名的映射关系为192.168.2.20mycluster192.168.2.33clo......
012-01Spark On YARN 环境搭建
1、Scala安装http://www.scala-lang.org/files/archive/scala-2.10.4.tgztar-zxvfscala-2.10.4.tgz-Capp/cd appln-sscala-2.10.4scala2、Spark安装tar-zxvf spark-1.4.0-bin-hadoop2.6.tgz-Cappln-sspark-1.4.0-bin-hadoop2.6spark#vimspark-......
003-spark名词和架构介绍
1、Spark名词1、RDD：数据集合2、Application：Spark用户程序3、DriverProgram：运行main函数并且新建SparkContext的程序4、ClusterManager：Spark集群资源调度服务（standlone，mesos，yarn）5、Executor:workernode的一个进程，负责运行任务6、Task：被送到某个e......
001-spark生态系统介绍
1、Spark简介-概念Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。主要特点：分布式计算内存计算容错多计算......
1004-HBase的基本操作
1、连接HBase./bin/hbaseshell2、创建一个表使用create命令创建一个表，必须给出特定的表名（tablename）和列族（theColumnFamilyname）hbase(main):001:0>create'test','cf'3、列出表信息hbase(main):002:0>list'test'4、put数据到指定的表使用put命令，并指定表，行建，列族......
Spark面试经典系列之数据倾斜解决方案的“银弹”是什么？本节我们对Spark数据倾斜解决
Spark面试经典系列之数据倾斜解决方案的“银弹”是什么？本节我们对Spark数据倾斜解决方案进行回顾和总结：1、数据倾斜运行的症状和危害。如果发行数据倾斜，往往发现作业任务运行特别缓慢，出现OOM内存溢出等现象。2、如果两个RDD进行操作，其中1个RDD数据不是那么多，我们把这......
Spark视频王家林第119课： Spark Streaming性能优化：如何在生产环境下应对流数据峰值巨变
Spark视频王家林第119课：SparkStreaming性能优化：如何在生产环境下应对流数据峰值巨变？本节讲解SparkStreaming性能优化：如何在生产环境下应对流数据峰值巨变？数据峰值及流量变化的不稳定有2个层面：1）第一个层面就是数据确实不稳定，例如晚上11点的时候访问流量特别高，相对其他时间而言表......
FastThreadLocal源码解析
Netty为什么要用自己的FastThreadLocal?threadLocalHash冲突，检索时间长。Netty自己定义的fastThreadLocal用的是数组，直接数组下标检索快。下面以ftl作为FastThreadLocal的简称例子ftl只有在FastThreadLocalThread线程中运行才生效，不然会走SlowGet模式（jdkthreadLocal方式）publiccl......
Hive 和 Spark 分区策略剖析
作者：vivo互联网搜索团队-DengJie随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。一、概述随着技术的不断的发展，大数据......
Hive 和 Spark 分区策略剖析
作者：vivo互联网搜索团队-DengJie随着技术的不断的发展，大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark，它们在分区策略方面有着一些相似之处，但也存在一些不同之处。一、概述随着技术的不断的发展......

004-spark local模式

相关文章

赞助商

阅读排行