首页 > 其他分享 >004-spark local模式

004-spark local模式

时间:2023-04-03 21:35:55浏览次数:35  
标签:启动 scala 004 sc spark txt local line


spark local 模式  在window或者linux下都一样,都是启动一个节点,只能用于测试。




1、下载Spark


官方地址:http://spark.apache.org/downloads.html



004-spark local模式_scala




2、window 7 下解压,然后点击“”启动spark




004-spark local模式_spark_02





3、spark验证是否启动成功




004-spark local模式_加载_03





4、spark计算验证


4.1 加载文本信息


加载一个或者多个文件,使用spark需要上下文对象sc



scala> var file=sc.textFile("d:/test/a.txt").collect




004-spark local模式_scala_04





4.2 可以使用-master启动多个线程






004-spark local模式_加载_05



4.3 单词统计



scala> sc.textFile("d:/test/a.txt").flatMap( line=>line.split("\\t") ).map( word=>(word,1) ).reduceByKey(_ + _).collect




004-spark local模式_spark_06



标签:启动,scala,004,sc,spark,txt,local,line
From: https://blog.51cto.com/u_14361901/6167557

相关文章

  • 005-spark standalone模式安装
    sparkstandalone模式不同于单节点本地模式,它有主从节点,分别为Master和workerSparkstandlone规划Master节点: 192.168.2.20Worker节点:192.168.2.20,192.168.2.33其中:地址和域名的映射关系为192.168.2.20mycluster192.168.2.33clo......
  • 012-01Spark On YARN 环境搭建
    1、Scala安装http://www.scala-lang.org/files/archive/scala-2.10.4.tgztar-zxvfscala-2.10.4.tgz-Capp/cd appln-sscala-2.10.4scala2、Spark安装tar-zxvf spark-1.4.0-bin-hadoop2.6.tgz-Cappln-sspark-1.4.0-bin-hadoop2.6spark#vimspark-......
  • 003-spark名词和架构介绍
    1、Spark名词1、RDD:数据集合2、Application:Spark用户程序3、DriverProgram:运行main函数并且新建SparkContext的程序4、ClusterManager:Spark集群资源调度服务(standlone,mesos,yarn)5、Executor:workernode的一个进程,负责运行任务6、Task:被送到某个e......
  • 001-spark生态系统介绍
    1、Spark简介-概念Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。主要特点:分布式计算内存计算容错多计算......
  • 1004-HBase的基本操作
    1、连接HBase./bin/hbaseshell2、创建一个表使用create命令创建一个表,必须给出特定的表名(tablename)和列族(theColumnFamilyname)hbase(main):001:0>create'test','cf'3、列出表信息hbase(main):002:0>list'test'4、put数据到指定的表使用put命令,并指定表,行建,列族......
  • Spark面试经典系列之数据倾斜解决方案的“银弹”是什么? 本节我们对Spark数据倾斜解决
    Spark面试经典系列之数据倾斜解决方案的“银弹”是什么?本节我们对Spark数据倾斜解决方案进行回顾和总结:1、   数据倾斜运行的症状和危害。如果发行数据倾斜,往往发现作业任务运行特别缓慢,出现OOM内存溢出等现象。2、   如果两个RDD进行操作,其中1个RDD数据不是那么多,我们把这......
  • Spark视频王家林第119课: Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
    Spark视频王家林第119课:SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?本节讲解SparkStreaming性能优化:如何在生产环境下应对流数据峰值巨变?数据峰值及流量变化的不稳定有2个层面:1)第一个层面就是数据确实不稳定,例如晚上11点的时候访问流量特别高,相对其他时间而言表......
  • FastThreadLocal源码解析
    Netty为什么要用自己的FastThreadLocal?threadLocalHash冲突,检索时间长。Netty自己定义的fastThreadLocal用的是数组,直接数组下标检索快。下面以ftl作为FastThreadLocal的简称例子ftl只有在FastThreadLocalThread线程中运行才生效,不然会走SlowGet模式(jdkthreadLocal方式)publiccl......
  • Hive 和 Spark 分区策略剖析
    作者:vivo互联网搜索团队-DengJie随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。一、概述随着技术的不断的发展,大数据......
  • Hive 和 Spark 分区策略剖析
    作者:vivo互联网搜索团队-DengJie随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。一、概述随着技术的不断的发展......