首页 > 其他分享 >3-spark学习路线-Spark安装

3-spark学习路线-Spark安装

时间:2023-09-14 13:02:51浏览次数:43  
标签:lyb -- 路线 CONF spark Spark DIR

   1.从https://spark.apache.org/获得Spark的安装包
  2.解压并安装Spark
   tar –zxvf  spark-****-bin-hadoop2.7.tgz
  3.配置Spark
   在YARN平台上运行Spark需要配置HADOOP_CONF_DIR、YARN_CONF_DIR和HDFS_CONF_DIR环境变量
   3.1 vim /etc/profile
	   export HADOOP_CONF_DIR=$HADOOP_HOME/home/lyb/hadoop
	   export HDFS_CONF_DIR=$HADOOP_HOME/home/lyb/hadoop
	   export YARN_CONF_DIR=$HADOOP_HOME/home/lyb/hadoop
   	   保存关闭后执行 
   3.2 source /etc/profile
    	 使环境变量生效
   3.3 修改spark-env.sh
	   cp spark-env.sh.tmplate  spark-env.sh
	   vim spark-env.sh
	   JAVA_HOME=/home/lyb/jdk
   4.验证Spark安装
		计算圆周率PI的值
	   进入Spark安装主目录
	   ./bin/spark-submit
	       --class org.apache.spark.examples.SparkPi 
	       --master yarn-cluster  模式选择(yarn-client;local)
		   --num-executors 3      进程数
		   --driver-memory 1g 	  驱动内存
		   --executor-memory 1g   运行时内存
		   --executor-cores 1     核数
	 	    /home/lyb/spark/examples/jars/spark-examples*.jar 10
	 	    

标签:lyb,--,路线,CONF,spark,Spark,DIR
From: https://blog.51cto.com/chengzheng183/7469037

相关文章

  • 2-spark学习路线-应用常景和解决
    在实际应用中,大数据处理主要包括以下三个类型:1.复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间2.基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间3.基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间当同时存在以上三种场景时,就......
  • 1-spark学习路线-spark 概述
    一.spark和hadoopMapReduceSpark数据存储结构:磁盘HDFS文件系统的split使用内存构建弹性分布式数据集RDDs对数据进行运算和cache编程范式:Map+ReduceDAG:Transformation+Action计算中间结果落到磁盘IO及序列化、反序列化代价大计算中间结果在内存中维护存取速度比磁盘高几个数......
  • Web前端学习路线
    学习Web前端需要的精选的书本和网络资源HTML教程CSS教程JavaScript教程BootStrap教程AJAX教程Node.js教程Vue.js教程React教程此外,在b站上有很多教学视频,亲测有效!不积跬步,无以至千里;不积小流,无以成江海。---《荀子》Web前端的方向和分支方向低代码方向前端......
  • 【Spark】Spark基础教程
    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点:运行速度快:Spark使用先进的DAG(DirectedAcyclicGraph,有向无环图)执行引擎,以支持循环数据流与内存计算,基......
  • Spark基础——scala基础1.0
    定义对象和强制转化1.定义规则var变量名:变量类型=初始值vari:Int=10varj:Double=3.33//var变量名:变量类型=初始值valo:Int=2//val常量名:变量类型=初始值变量声明时,必须要有初始值i=20//var修饰的变量可以改变,val则不可改变varl=3.33valp="......
  • Iceberg从入门到精通系列之十五:Spark集成Iceberg
    Iceberg从入门到精通系列之十五:Spark集成Iceberg一、下载Spark安装包二、解压Spark安装包三、配置环境变量四、激活环境变量五、下载Sparkiceberg的jar包六、Spark集成Iceberg七、Spark配置Catalog八、配置HiveCatalog九、配置HadoopCatalog十、spark集成hive十、启动Sparkshe......
  • 2023-最新嵌入式学习路线!
    2023-最新嵌入式学习路线!说明:以下学习路线基于我本人在22年秋招过程中的嵌入式学习、面试经验整理主要面向嵌入式软件、linux、驱动岗位,相比其他大而全的嵌入式学习路线,本文注重嵌入式面试重点、核心、精简内容。(没有废话、全是干货)嵌入式核心知识点----基本功------......
  • Zeppelin起Spark任务报错:RECEIVED SIGNAL TERM
    Zeppelin起Spark任务报错:RECEIVEDSIGNALTERM解决方法如下所示:调大spark任务资源exportSPARK_SUBMIT_OPTIONS="--driver-memory4G--executor-memory4G--driver-cores2--executor-cores2--num-executors20--confspark.sql.shuffle.partitions=1000--confspark.......
  • zeppelin设置spark的启动参数
    zeppelin设置spark的启动参数vimzeppelin-env.shexportSPARK_SUBMIT_OPTIONS="--driver-memory4G--executor-memory4G--driver-cores2--executor-cores2--num-executors10--confspark.sql.shuffle.partitions=1000--confspark.default.parallelism=300......
  • spark2.4.4安装
    1、环境准备:下载spark-2.4.4-bin-hadoop2.7.tgz上传安装包到Linux中解压安装包tar-zxf spark-2.4.4-bin-hadoop2.7.tgz-C/hadoop/app2、配置环境2.1修改hadoop中yarn-site.xml<property><name>yarn.nodemanager.pmem-check-enabled</name><value>f......