首页 > 系统相关 >Linux系统下安装Yarn(以Hadoop Yarn为例)的详细步骤

Linux系统下安装Yarn(以Hadoop Yarn为例)的详细步骤

时间:2024-12-17 16:31:28浏览次数:4  
标签:xml 为例 Hadoop hadoop Yarn site 安装

一、前提条件

  1. 安装Java

    • Yarn是基于Java开发的,需要先安装Java Development Kit(JDK)。你可以从Oracle官方网站(https://www.oracle.com/java/technologies/javase -jdk11 -downloads.html)下载适合你系统的JDK版本。
    • 安装完成后,设置JAVA_HOME环境变量。例如,在bash环境下,将以下内容添加到~/.bashrc文件中:
    export JAVA_HOME=/path/to/your/jdk
    export PATH=$JAVA_HOME/bin:$PATH
    
    • 然后运行source ~/.bashrc使环境变量生效。
  2. 安装Hadoop(如果未安装)

    tar -zxvf hadoop - x.x.x.tar.gz -C /usr/local/
    
    • 配置Hadoop相关文件,主要包括core - site.xmlhdfs - site.xmlmapred - site.xml等。这些文件通常位于$HADOOP_HOME/etc/hadoop目录下。

    • core - site.xml中,配置如文件系统相关的属性,例如:

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    
    • hdfs - site.xml中,可以配置HDFS的副本数等属性:
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
    
    • mapred - site.xml(如果不存在,可以从mapred - site.xml.template复制而来),配置MapReduce相关的属性,如指定Yarn作为资源管理器:
    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    

二、安装Yarn

  1. 配置Yarn相关文件

    • 进入$HADOOP_HOME/etc/hadoop目录,编辑yarn - site.xml文件。配置示例如下:
    <configuration>
        <property>
            <name>yarn.nodemanager.aux - services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>localhost</value>
        </property>
        <property>
            <name>yarn.nodemanager.vmem - pmem - ratio</name>
            <value>2.1</value>
        </property>
    </configuration>
    
    • 这些配置分别指定了NodeManager的辅助服务(用于MapReduce中的数据混洗)、ResourceManager的主机名以及虚拟内存和物理内存的比例等。
  2. 启动Yarn服务

    • 首先格式化NameNode(如果是新的HDFS集群):
    hdfs namenode - format
    
    • 启动HDFS服务:
    start - dfs.sh
    
    • 启动Yarn服务:
    start - yarn.sh
    
    • 可以通过浏览器访问Yarn的资源管理器界面(通常是http://localhost:8088)来检查Yarn是否成功启动。
  3. 验证安装

    • 运行一个简单的MapReduce作业来验证Yarn是否正常工作。例如,运行Hadoop自带的示例作业wordcount
    • 首先创建一个输入目录并上传一些文本文件到HDFS:
    hdfs dfs -mkdir /input
    hdfs dfs -put /path/to/your/text/files /input
    
    • 然后运行wordcount作业:
    hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - x.x.x.jar wordcount /input /output
    
    • 检查输出结果是否正确,并且可以在Yarn的资源管理器界面查看作业的运行状态和资源使用情况。

请注意,以上安装步骤可能因操作系统、Hadoop版本和具体需求而有所不同。在实际安装过程中,可能需要根据实际情况进行适当的调整。

标签:xml,为例,Hadoop,hadoop,Yarn,site,安装
From: https://www.cnblogs.com/java-note/p/18612819

相关文章

  • 好,我们以你的 `euclidolap.proto` 文件为例,调整代码结构,让服务逻辑更清晰,同时将 `eucl
    好,我们以你的euclidolap.proto文件为例,调整代码结构,让服务逻辑更清晰,同时将euclidolap模块分离到独立文件中。假设文件结构调整我们将euclidolap.proto生成的代码放到src/euclidolap模块中,同时将服务端逻辑分开组织。最终文件结构如下:project/├──build.rs......
  • 统一资源管理和调度框架Yarn
    Yarn简介Yarn(YetAnotherResourceNegotiator)是Hadoop生态系统中的资源管理和调度框架。它的主要作用是管理集群中的计算资源(如CPU、内存等),并对运行在集群上的应用程序进行调度。在传统的Hadoop1.0中,MapReduce既是计算模型又是资源管理和调度框架,这种紧耦合的设计在面对多种......
  • 大数据可视化分析-django基于Hadoop的天气预报数据爬取与可视化分析
    文章目录程序资料获取一、项目技术二、项目内容和项目介绍三、核心代码四、效果图五、资料获取程序资料获取......
  • 【C#脚本】C#调用Python脚本的方式(一),以PaddleOCR-GUI为例
    以下文章来源于mingupup的学习记录,作者DotNet学习交流前言每种语言都有每种语言的优势,Python由于其强大的生态,很多任务通过调用包就可以实现,那么学会从C#项目中调用Python脚本完成任务就很重要。C#调用Python代码有多种方式,如果Python那边内容比较多,可以考虑起一个WebApi进行......
  • 【Hadoop框架】 生态组件之分布式文件系统 HDFS 常用命令
    一、HDFS集群的启动停止1.1单服务启动停止方式1.1.1单服务启动1.1.2单服务停止1.2多服务启动停止方式1.2.1多服务启动1.2.2多服务停止二、获取HDFS集群信息三、HDFS常用命令3.1查看HDFS帮助命令3.1.1查......
  • 【大数据】大数据 Hadoop 管理工具 Apache Ambari(HDP)
    一、概述ApacheAmbari是Hortonworks贡献给Apache开源社区的顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视Hadoop集群。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ApacheAmbari支持H......
  • C#调用Python脚本的方式(一),以PaddleOCR-GUI为例
    前言每种语言都有每种语言的优势,Python由于其强大的生态,很多任务通过调用包就可以实现,那么学会从C#项目中调用Python脚本完成任务就很重要。C#调用Python代码有多种方式,如果Python那边内容比较多,可以考虑起一个WebApi进行调用,如果只是一个简单的脚本而且不需要频繁调用,那......
  • C#调用Python脚本的方式(一),以PaddleOCR-GUI为例
    前言每种语言都有每种语言的优势,Python由于其强大的生态,很多任务通过调用包就可以实现,那么学会从C#项目中调用Python脚本完成任务就很重要。C#调用Python代码有多种方式,如果Python那边内容比较多,可以考虑起一个WebApi进行调用,如果只是一个简单的脚本而且不需要频繁调用,那么可以......
  • 企业级包管理器之 yarn&pnpm (7)
    在前端开发的包管理领域,npm虽然应用广泛,但随着发展,yarn和pnpm相继出现,它们各自针对npm当时存在的一些问题提供了有效的解决方案,下面我们就来深入了解一下它们。一、yarn诞生背景与开发团队:yarn这个包管理器诞生于2016年,是由Facebook、Google、Exponent等几家公......
  • 以Qwen2-VL为例说明模型训练过程
    以Qwen2-VL为例说明模型训练过程flyfish日志{"best_metric":null,"best_model_checkpoint":null,"epoch":0.8001066808907854,"eval_steps":500,"global_step":1500,"is_hyper_param_search":fals......