首页 > 其他分享 >灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置

时间:2023-10-25 17:55:56浏览次数:42  
标签:EasyMR 管理 队列 应用程序 可视化 Yarn 资源

YARN(Yet Another Resource Negotiator)是 Hadoop 生态系统中的资源调度器,主要用于资源管理和作业调度。YARN 自身具备队列管理功能,通过对 YARN 资源队列进行配置和管理,实现集群资源的分配,以满足不同应用和用户的需求。YARN 的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

在大数据环境下,企业通常会有多个应用程序同时运行,这些应用程序可能具有不同的资源需求和优先级。为了合理分配和管理资源,避免资源争夺和冲突,需要对资源进行划分和调度。

本文将为大家介绍各类资源划分和队列管理方式,以及 EasyMR 新上线的 YARN 的队列管理功能,如何通过可视化界面管理,给广大用户带来更高效和便捷的队列管理体验。

资源划分方式

在大数据领域中,常见的资源划分方式通常有以下几种:

按照应用程序的类型或特性进行分类

例如,可以将 CPU 密集型的应用程序放置在一个队列中,将内存密集型的应用程序放置在另一个队列中。通过这种方式,可以确保不同类型的应用程序获得各自所需的资源,并避免资源浪费和不均衡的情况发生。

按照应用程序的优先级进行分类

对于一些重要的任务或紧急任务,可以为它们分配更高的资源配额和优先级,以保证它们能够得到及时响应和优先处理。而对于一些次要的任务或低优先级的任务,可以为它们分配较低的资源配额,以确保其他重要任务的执行效率和优先级。

按照部门或团队的需求进行分类

不同部门可能对资源有不同的需求,通过为不同部门分配独立的资源队列,可以确保每个部门能够独立管理和分配自己的资源,不会相互干扰或影响。

虽然 YARN 自身具备队列管理功能,但在实际使用中,YARN 只能通过配置文件进行资源队列的管理,这种方式相对繁琐且需要一定的技术知识。

file

CDH & HDP

业界首选的基础开源数据平台要数基于 Hadoop 分布式技术的 CDH 和 HDP。

CDH(Cloudear Manager)

● Fair Share 策略

CDH 的 Cloudear Manager 采用 Fair Share 策略,每个用户或组织的权重和优先级需要事先确定,需要管理者对系统的使用情况有较好的了解。如果这些设置不合理,可能会导致某些用户或组织长期不能获得足够的资源来执行任务。

● 调度效率影响

当有多个任务或作业同时提交时, Fair Share 的算法需要进行复杂的计算,导致调度效率下降。

HDP(Ambari)

● 管理复杂性

Ambari 采用可视化拖拽进行资源调整,操作简单。但是由于 Yarn 资源队列必须保证同一级队列资源之和等于100%,因此单一队列资源调整,必须调整其他队列资源保证队列资源之和等于100%,管理复杂度比较高。

● 资源配平

为保证同级队列资源之和等于100%,创建或者删除队列时,需要调整其他队列资源保证队列资源。

EasyMR 的 Yarn 资源队列管理功能

基于上述优缺点,为了改善队列管理体验,提供一个更直观、更详细的信息展示和简易明了的操作界面进行队列资源管理,EasyMR 上线了 Yarn 的队列管理功能进行可视化界面管理,提高其灵活性、可用性和可扩展性。

file

EasyMR 的 Yarn 资源队列管理特点

● 容量策略

基于最大、最小资源容量策略,限制队列的资源使用,用户或部门可以根据自己业务需求创建属于自己的专属资源队列

● 队列独立

当调整队列资源大小或者创建删除队列时,无需调整其他队列资源大小,仅需保证同一父队列下所有子队列资源小于等于100%即可。

● 用户对接

支持对接 LDAP、OAuth 用户体系,通过对 Yarn 资源队列-叶子队列绑定用户、用户组,实现了基于用户和用户组的访问控制和资源分配,保障资源安全。

叶子队列:是指不能再分配子队列的队列,它可以直接用来分配资源给应用程序,在叶子队列中,可以直接运行应用程序或者将它们放置在默认分配队列中进行调度。

非叶子队列:可以再分配子队列,以进一步划分资源并进行资源管理,不支持应用程序和任务的提交。例如,可以将 CPU 密集型应用程序和内存密集型应用程序分别放置在不同的子队列中,并为它们分配不同的资源配额和优先级。

父队列:通常是一个非叶子队列,它包含多个子队列,并控制着这些子队列的资源分配和优先级等属性。例如,一个父队列可以包含多个子队列“memory”、“cpu”等,通过为不同的子队列设置不同的资源配额和优先级,可以更好地管理集群中的资源。

子队列:是父队列的一部分,它们继承了父队列的所有属性,并具有自己的资源配额和优先级等属性。在子队列中可以运行应用程序不支持再次划分子队列。

EasyMR 如何创建 Yarn 资源队列,在之前的文章《大数据计算引擎 EasyMR 如何简单高效管理 Yarn 资源队列》中进行了详细的介绍,请点击阅读。

未来,EasyMR 会持续优化 Yarn 资源队列管理,完善资源队列的安全审计与队列监控,通过将资源队列与需求背景进行对应,制定更优资源分配策略,以更好地满足企业在大数据环境下的资源管理和调度需求。

《数栈产品白皮书》:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」,交流最新开源技术信息,qun号码:30537511,项目地址:https://github.com/DTStack

标签:EasyMR,管理,队列,应用程序,可视化,Yarn,资源
From: https://www.cnblogs.com/DTinsight/p/17787806.html

相关文章

  • 软件测试|Python数据可视化神器——pyecharts教程(十)
    使用pyecharts绘制漏斗图简介漏斗图(FunnelChart)是一种用于可视化数据流程或转化率的图表类型。它通常由一系列阶段组成,每个阶段都有一个名称和一个值,表示在该阶段的转化量或数据流程的进展情况。漏斗图的名称来源于其外观,类似于实际的漏斗形状,它的顶部较宽,底部较窄,符合数据逐渐减......
  • 常用数据分析可视化图表解析之【雷达图】
    雷达图(RadarChart)基础介绍雷达图是一种常用的数据可视化图表,通过使用多边形的边和顶点来表示多个变量或维度的数据。每个变量或维度对应于雷达图的一个轴,数据值则通过距离中心点的距离来表示。雷达图可以直观地展示不同变量之间的差异和相对位置,帮助我们了解数据分布和模式。......
  • 动态数据可视化有哪些工具?
     动态数据可视化工具动态数据可视化是指能够实时或动态地展示数据变化的可视化方式。以下是一些常用的动态数据可视化工具,每个工具都有其特点和适用场景。1.D3.js(Data-DrivenDocuments)D3.js是一个基于JavaScript的强大数据可视化库,它提供了丰富的功能和灵活性,可以创建......
  • 可视化图表统计的好处
    可视化图表统计是将数据以图形的方式呈现,通过视觉化的方式帮助人们更好地理解和分析数据。下面是一个详细介绍可视化图表统计的好处:1.提供清晰的信息传递:  -可视化图表能够将大量的数据和复杂的信息转化为易于理解和消化的形式。  -图表可以帮助人们快速抓住关键信息......
  • [数据分析与可视化] 基于Python绘制简单动图
    动画是一种高效的可视化工具,能够提升用户的吸引力和视觉体验,有助于以富有意义的方式呈现数据可视化。本文的主要介绍在Python中两种简单制作动图的方法。其中一种方法是使用matplotlib的Animations模块绘制动图,另一种方法是基于Pillow生成GIF动图。目录1Animations模块1.1FuncA......
  • git 图形可视化工具GitHub Desktop 的安装及使用
    直接搜索GitHubDesktop 点进去下载: 下载完根据提示关联自己的github账号克隆一个仓库: 基于某分支新建分支  ......
  • Linux查看硬件信息超强命令sar,以及可视化工具ksar
    一、概述sar(SystemActivityReporter,系统活动情况报告)是Linux下系统运行状态统计工具,可从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。算是一个万能的小能手。二、安装Linux下:#yumin......
  • Yarn on K8S可行性调研
    1.背景一般离线Hadoop集群和在线Hadoop集群都是分开部署的,他们的计算资源互相隔离。离线集群一般0:00~08:00作业较多,集群压力大,其他时间段集群较为空闲。实时集群高峰期一般为10:00~20:00,其他时间段较为空闲。空闲时资源利用率低,是对资源的浪费,而离线/实时集群在高峰期资源紧张时......
  • Yarn federation原理与实践
    1.背景随着业务的增长,Yarn集群也不断扩展。节点数增多、请求增多、队列增多,造成调度性能线性下降。如下是三个集群的性能数据:集群队列数量平均调度耗时最大每秒调度数量CPS集群A27063.8ms483集群B620940微秒1150集群C399676微秒1013对于集群A,......
  • R语言股市可视化相关矩阵:最小生成树|附代码数据
    原文链接:http://tecdat.cn/?p=17835最近我们被客户要求撰写关于股市可视化的研究报告,包括一些图形和统计输出。本文在股市可视化中可视化相关矩阵 :最小生成树在本文示例中,我将使用日数据和1分钟数据来可视化股票数据。我发现以下概念定义非常有用: 连通图:在无向图中,若任......