【深入浅出 Yarn 架构与实现】1-2 搭建 Hadoop 源码阅读环境

时间：2022-11-08 11:47:17浏览次数：64

标签：git hadoop Yarn Hadoop project 源码 YARN

本文将介绍如何使用 idea 搭建 Hadoop 源码阅读环境。（默认已安装好 Java、Maven 环境）

一、搭建源码阅读环境

一）idea 导入 hadoop 工程

从 github 上拉取代码。
https://github.com/apache/hadoop
可以选择对应的分支

# 如拉取 2.8.5 分支
git clone -b branch-2.8.5 [email protected]:apache/hadoop.git

在 idea 中点击 File - Open 选择对应的文件夹目录，进行导入。之后会进入漫长的程序加载过程（看机器配置和网速，可能几十分钟到几小时不等）。

二）配置注释环境

为了更方便的在阅读源码过程中记笔记，可在源码基础上创建新的分支用于记录。
1、创建新分支

# 如在 branch-2.8.5 基础上创建
git checkout -b branch-2.8.5-comment

2、在 github 上创建个新的项目
3、将本地分支 branch-2.8.5-comment 推送到远端。之后可以在自己 github 上看到这个项目分支了。

# 删除原来的远端项目
git remote remove origin
# 添加新的项目地址
git remote add origin <你的项目地址>
# 推送新的分支
git push -u origin branch-2.8.5-comment

二、源码组织架构

一）根目录结构

导入工程后，可以看到如下图的目录结构。其中，比较重要的目录有：hadoop-common-project、hadoop-mapreduce- project、hadoop-hdfs-project 和 hadoop-yarn-project 等。

hadoop-common-project：Hadoop 基础库所在目录，该目录中包含了其他所有模块可能会用到的基础库，包括 RPC、Metrics、Counter 等；
hadoop-mapreduce-project：MapReduce 框架的实现；
hadoop-hdfs-project：Hadoop 分布式文件系统实现；
hadoop-yarn-project：Hadoop 资源管理系统 YARN 实现，是我们需要重点关注的部分。

二）yarn 目录结构

Hadoop YARN 主要关注五个部分：API、Common、Applications、Client 和 Server。

YARN API：给出了 YARN 内部涉及 RPC 协议的 Java 声明和 Protocol Buffers 定义；
YARN Common：包含了 YARN 底层库实现，包括事件库、服务库、状态机库、Web 界面库等；
YARN Applications：包含了两个 Application 编程实例，分别是 distributedshell 和 Unmanaged AM；
YARN Client：该部分封装了几个与 YARN RPC 协议交互相关的库，方便用户开发应用程序；
YARN Server：该部分给出了 YARN 的核心实现，包括 ResourceManager、NodeManager、资源管理器等核心组件的实现。

三、远程调试

配置与远程部署的 hadoop 服务连接。
1、idea 中选择 Run -> Edit Configurations

# 在 yarn-env.sh 中添加
export YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=5006"
export YARN_RESOURCEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=5005"

# 如果想要启动时先连接 debug，则设置 suspend=y

4、可以用 idea 进行远程连接调试了

标签：git,hadoop,Yarn,Hadoop,project,源码,YARN
From： https://www.cnblogs.com/shuofxz/p/16869138.html

QT5-打开源码中的所有打印信息
移植QT时，可能要查看QT的源码中的打印日志，以便确定问题。修改方法如下：/etc/profile文件exportQT_DEBUG_PLUGINS=1exportQT_LOGGING_RULES="*=false;*=true"规则如下：关闭所......
UE4源码编译，报错GenerateProjectFiles error的几个办法
第一种检查，红框内没勾的勾上第二种没勾的勾上其他的情况ue的AnswerHub有些别人提到的相关问题，连接如下https://answers.unrealengine.com/questions/724854/v......
threadlocal源码详解&内存泄漏分析
juc基础之ThreadlocalThreadlocal底层原理get方法源码public T get() { Thread t = Thread.currentThread(); ThreadLocalMap map = getMap......
线程池原理&源码分析&手写实现
juc基础之线程池实现原理线程池概念线程池和数据库连接池非常类似，可以统一管理和维护线程，减少没必要的开销为什么使用使用线程池？因为频繁的开启线程或者停止线程，线程需......
对<源码级调试WDF框架>一文进行补充
MS曾在他的Github站点上提出过《源码级调试WDF框架》的方法，文中提到通过.srcfix命令使windbg源码服务器路径指向MS的源码服务器。这样当调试到wdf框架代码时，windbg......
Hadoop总结——Hadoop基础
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决，海量数据的存储和海量数据的分析计算问题广义上来说，Hadoop通常是指一个更广泛的概念——Ha......
【一个让你停不下来的动效】——难道不来瞅瞅？（含源码+思路）
文章目录一个停不下来的动效！！！前言：......
源码级深度理解 Java SPI
作者：vivo互联网服务器团队-ZhangPengSPI是一种用于动态加载服务的机制。它的核心思想就是解耦，属于典型的微内核架构模式。SPI在Java世界应用非常广泛，如：Dubbo、Sp......
Vue源码解读之InitState
前面我们讲到了_init函数的执行流程，简单回顾下：初始化生命周期-initLifecycle初始化事件-initEvents初始化渲染函数-initRender调用钩子函数-beforeCreate初始化依赖......
Vue3源码解读之patch
例子代码本篇将要讲解domdiff，那么咱们结合下面的例子来进行讲解，这个例子是在上一篇文章的基础上，加了一个数据变更，也就是list的值发生了改变。html中增加了一个按钮change......