首页 > 系统相关 >Windows 配置 Hadoop and Spark

Windows 配置 Hadoop and Spark

时间:2023-05-31 20:14:05浏览次数:64  
标签:Windows 配置 Hadoop hadoop 3.3 Spark spark

一 JDK环境配置
由于项目用的JDK17,所以单独给Hadoop配了JDK11,建议直接配置JAVA_HOME环境变量为JDK11,因为后面Spark需要用到JAVA_HOME

下载JDK11

链接:https://www.oracle.com/java/technologies/javase/jdk11-archive-downloads.html

目前Hadoop和Spark兼容JDK11和JDK8

单独修改Hadoop的话,需要在Hadoop目录下的etc\hadoop\文件夹中hadoop-env.cmd中添加一行
set JAVA_HOME=E:\Environment\jdk-11.0.13(此处填写你的JDK路径)

注:JDK、Hadoop以及Spark的文件路径中不能出现空格和中文,类似于Program Files这样的文件夹名是不被允许的

二 Hadoop配置
1 下载Hadoop
镜像链接:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.2/

选择hadoop-3.3.2.tar.gz

下载winutils.exe和hadoop.dll,Windows安装Hadoop需要这部分文件

链接:https://github.com/cdarlint/winutils

找到对应的版本对应bin目录中的文件,放入Hadoop下的bin 文件夹中

2 配置Hadoop环境变量
把Hadoop目录添加到系统变量HADOOP_HOME,并在系统变量Path中添加%HADOOP_HOME%\bin

cmd输入

hadoop version

测试是否正常显示版本信息

3 配置hadoop
打开Hadoop所在目录下etc\hadoop的文件夹

修改core-site.xml:

先在Hadoop目录下创建data文件夹,配置文件中路径前需加"/"。HDFS可使用localhost,如果在hosts文件已经配置了主机映射,也可以直接填主机名

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/tmp</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
修改hdfs-site.xml:

<configuration>
    <!-- 这个参数设置为1,因为是单机版hadoop -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/namenode</value> //注意前面部分路径修改为自己的
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/E:/Environment/hadoop-3.3.2/data/datanode</value> //注意前面部分路径修改为自己的
    </property>
</configuration>
修改mapred-site.xml:

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
    <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9001</value>
    </property>
</configuration>
修改yarn-site.xml:

<configuration>
	 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
	<property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hahoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

4 节点格式化
打开cmd输入

hdfs namenode -format

出现类似下图说明成功。如果出错,可能原因有如:环境变量配置错误如路径出现空格,或者winutils版本不对或hadoop版本过高等,或hadoop的etc下文件配置有误

5 启动Hadoop
然后cmd切换到Hadoop下的sbin目录,输入

start-all.cmd

然后回车,此时会弹出4个cmd窗口,分别是NameNode、ResourceManager、NodeManager、DataNode。检查4个窗口有没有报错。在CMD执行jps看到这4个进程,启动成功

浏览器输入localhost:9870即进入访问HDFS的Web UI界面

浏览器输入localhost:8088即进入Yarn集群节点的Web UI界面

三 Spark配置
1 下载Scala
下载链接:https://www.scala-lang.org/download/2.13.8.html

选择scala-2.13.8.zip

2 配置Scala环境变量
将解压后的Scala的bin目录添加到Path系统变量中,打开cmd输入

scala

然后回车,如果能够正常进入到Scala的交互命令环境则表明配置成功

3 下载Spark
由于spark-3.2.1版本在启动时会出现一点问题,具体原因没有深究。但尝试降低版本变成3.1.3版本后正常运行,所以就选择配置spark-3.1.3

Spark3.1.3和JDK11启动时会出现WARNING,更新到3.3.1和JDK17就好了

官网链接:https://dlcdn.apache.org/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3-scala2.13.tgz

镜像链接:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.1/spark-3.3.1-bin-hadoop3-scala2.13.tgz

「需要注意的是spark版本需要和hadoop版本对应.如果按照本文的配置即可忽略此行文字」

4 配置Spark环境变量
把Spark目录添加到系统变量SPARK_HOME,并在系统变量Path中添加%SPARK_HOME%\bin

5 启动Spark
打开cmd窗口,输入

spark-shell

然后回车,如果能够正常进入到Spark的交互式命令行模式,则表明配置成功

浏览器输入localhost:4040即进入Spark的Web UI界面

标签:Windows,配置,Hadoop,hadoop,3.3,Spark,spark
From: https://www.cnblogs.com/ShibuyaKanon/p/17447196.html

相关文章

  • 解决方案 | Windows 验证账号出现 0x80190001错误解决
    一、问题描述点击windows开始→账户→更改账户设置→验证,出现下面的错误。 二、解决方法网上流行的是这个方法,https://blog.csdn.net/qq_36393978/article/details/107413791 ,但是这个其实是恢复网络刷新dns的方法,大家可试一试。 如果不行,试试下面的方法,在任务栏搜索框......
  • Windows通过使用批处理.bat脚本文件修改DNS值
    在公司内网有自己的DNS服务器,但是在使用某些软件时又经常需要特定的DNS地址,每次切换都非常麻烦,所以写了个.bat批处理脚本文件方便切换,如果是修改IP等信息做些修改后同样可以使用。@echooff:startecho1:设置DNS为手动2:设置DNS为自动set/pvar=请选择if%var%==1gotoop......
  • Windows编程:文件监控
    最近在做虚拟打印机时,需要实时监控打印文件的到达,并移动文件到另外的位置。一开始我使用了线程,在线程里去检测新文件的到达。实际上Windows提供了一个文件监控接口函数ReadDIrectoryChangesW。这个函数可以对所有文件操作进行监控。 ReadDirectoryChangesW函数声明1BOOLR......
  • windows与linux批处理脚本
    有一个windows下的bat脚本,希望丢到linux下去执行。主要是有一些字符要修改1.文件目录一个是‘\’,一个是‘/’2.使用./命令调用可执行文件3.使用vim编辑器,先输入:ff(fileformat的缩写),会显示文件是dos格式,输入:ff=unix,改为unix格式 ......
  • 在 Windows 磁盘管理中,RAID 技术主要有四种常见的级别
    独立磁盘冗余阵列(RAID)是一种通过组合多个物理磁盘来创建一个更大、更可靠的逻辑磁盘的技术。RAID通常用于在磁盘级别上提供数据冗余,以增加数据的可靠性和可用性,同时还可以提供更快的读写速度。下面是几种常见的RAID级别:RAID0:将两个或多个磁盘组合成一个大容量的逻辑卷,并将......
  • Windows密码抓取的四种方式
    Windows密码抓取的四种方式一、SAM离线抓取1、通过reg命令无工具导出,然后下载到本地用mimikatz读取用户NTLMHashregsavehklm\samsam.hiveregsavehklm\systemsystem.hive2、通过nishang中的Copy-VSS进行复制(1)在CS中导入模块powershell-import./powershell/Copy-VSS......
  • RabbitMQ在Windows下设置服务启动
    1.管理员模式运行  cmd 2.进入RabbitMQ安装目录下的sbin目录   输入命令: cdrabbitMQ的sbin路径,进入sbin目录输入命令:rabbitmq-service.batinstall进入服务,开启rabbitMQ服务 ......
  • windows下安装多个Redis实例
     1.复制配置: redis.windows-service.conf为redis.windows-service-6380.conf2.更改配置: 如端口/密码等3.安装实例:cdC:\ProgramFiles\Redis&&redis-server.exe--service-installredis.windows-service-6380.conf--service-nameRedis6380--port63804.启动实......
  • windows访问k8s
    windows访问ekspods安装AWSCLI网址为https://awscli.amazonaws.com/AWSCLIV2.msi。查看aws版本。aws--version配置AWSCLI凭证eksctl和AWSCLI均要求您在环境中配置AWS凭证。awsconfigure命令是设置安装以供一般使用的最快方法。$awsconfigureAWSAccess......
  • spark 任务运行原理
    调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用......