首页 > 其他分享 >【论文阅读】THEMIS: Fair and Efficient GPU Cluster Scheduling

【论文阅读】THEMIS: Fair and Efficient GPU Cluster Scheduling

时间:2024-03-13 14:02:59浏览次数:29  
标签:THEMIS Fair Efficient ML 调度 应用程序 拍卖 GPU 分配

11. THEMIS: Fair and Efficient GPU Cluster Scheduling
  • 出处: 2020 USENIX Themis:公平高效的 GPU 集群调度 |USENIX
  • 主要工作:使用拍卖机制,针对长时间运行、位置敏感的ML应用程序。任务以短期的效率公平来赢取投标但确保长期是完成时间公平性。
    • 对每个ML应用程序 A i A_i Ai​引入在GPU分配 G i ⃗ \vec{G_i} Gi​ ​最大完成时间公平性 P i ( ⋅ ) P_i(\cdot) Pi​(⋅)
    • 单轮拍卖:
      • 输入:资源和投标, R ⃗ \vec{R} R 表示要拍卖的GPU资源总量,其中每个元素为1,长度为要拍卖的GPU数量。每个ML应用程序都竞标这些资源,每个ML程序出价是对几个GPU分配方案 G ⃗ \vec{G} G ( G i ⃗ \vec{G_i} Gi​ ​的值为 { 0 , 1 } \{0,1\} {0,1})的最大时间公平性 P i P_i Pi​
    • 多轮拍卖:
      • 逐轮拍卖:在每一轮拍卖开始时,向应用程序请求新的 P i ( ⋅ ) P_i(\cdot) Pi​(⋅)
      • 逐轮过滤:为了最大化 P ≤ 1 P\le 1 P≤1应用数量,每轮都过滤掉 P P P最大的 1 − f 1-f 1−f部分, f ∈ ( 0 , 1 ) f\in(0,1) f∈(0,1)。过滤使具有SI的应用数量最大化:一个输掉一轮拍卖的不公平应用 i i i,更容易打赢一个赢得一轮拍卖的不那么公平的应用 k k k( k k k被分配了GPU,它的 P K P_K PK​会增大, i i i由于等待也会增大 P i P_i Pi​,会一直出现,输掉太多轮的应用最终会失去所有资源的租约)
      • 剩余分配:在每轮的最后,有剩余GPU,将这些GPU分配给没有参加拍卖的应用程序,这在违反了SI的风险下提高了效率。
  • 目标:在有效利用集群GPU的同时最小化所有ML应用程序的最大完成时间公平性。最大完成时间公平性(共享激励):在一个有N个应用程序的共享集群中运行时间与在一个有 1 N \frac{1}{N} N1​个应用程序的集群中单独运行的比率。通过两个思想来做到这点。
    • 扩大ML应用程序和调度器之间的API,以允许应用程序指定放置偏好。通过一轮轮的拍卖达到,THEMIS使用租约来处理长时间运行的ML任务,并在租约到期时开始拍卖,新一轮开始时有个应用程序出价,价高者得。出价反映应用程序从获取的不同GPU子集的完成时间公平指标。
    • 提出两级调度设计。顶层包含一个集中的应用程序见调度程序,底层包含一个集成现有超参数调优框架的API。
  • 动机:
    • 现有方案无法提供公平的共享保证,因为他们不知道ML应用程序的特征。(主要是位置偏好)
    • 简单的方案是获取所有应用的 P i P_i Pi​ 然后进行排序并分配,但应用程序请求的资源往往比所需的更多,以获得更多的分配机会。
  • 几个概念:
    • sharing incentive(SI): 如果N个用户共用集群C,每个用户的性能应该不弱于 C N \frac{C}{N} NC​
    • Pareto efficiency(PE): 帕累托最优。帕累托改善:从一种分配状态到另一种状态的变化中,在没有使任何人情况变化的前提下,使得至少一个人变得更好。帕累托最优是指集群分配无法再进行帕累托改善()。
    • envy-freedoms(EF): 无羡嫉
  • 新指标: P = T s h T i d P=\frac{T_{sh}}{T_{id}} P=Tid​Tsh​​ T i d T_{id} Tid​ 是独立完成时间, T s h T_{sh} Tsh​ 是共享完成时间。如果 P ≤ 1 P\le 1 P≤1 即可实现ML应用的共享激励。(此时共享完成时间小于独立完成时间)。
  • 调度器的类型:
    • 悲观调度器:可见性和分配在单个应用的粒度上是密切相关的。
    • 全乐观调度器:可见性和分配在多个应用的粒度上是密切相关的,有完整的多应用可见性,因为所有集群资源及其状态对所有应用都是可见的,所有应用程序都争夺资源,资源分配决策是由多个应用程序同时使用事务作出的。
    • 半乐观调度器:本文所用方案,当跨应用调度器同时为多个应用提供资源时,它具有多应用可见性,而资源分配时是无冲突的,保证每个应用程序对资源的独占访问。
  • 模型:

在这里插入图片描述

调度架构分为两个级别,包括多个应用程序调度器和一个称为ARBITER的跨应用程序调度程序:

  • 第一阶段(1~3):
    • ARBITER 要求所有应用程序提供当前完成时间公平性 P P P的估计值。
    • ARBITER 启动拍卖,将可用资源的相同非绑定资源分配给 P P P最小的 f ∈ [ 0 , 1 ] f\in[0,1] f∈[0,1]部分应用(根据逐轮过滤)。为了最小化拍卖中ML调度器与参与者的变化,THEMIS 引入一个AGENT ,它和每个ML程序调度器放在一起。AGENT作为ML程序和ARBITER之间的媒介。
    • 这些应用程序并行地检查提供的资源,每个应用程序的AGENT返回一个标价,该标价反映了对资源分配的偏好。
  • 第二阶段(4~5):
    • ARBITER 在收到这一轮的所有投标后,根据部分分配算法和剩余分配方案选择中标。然后通知每个AGENT获胜的分配(如果有的话)。
    • AGENT将分配传播给ML应用程序调度器,然后ML应用程序调度器可以决定组成作业之间的分配。

标签:THEMIS,Fair,Efficient,ML,调度,应用程序,拍卖,GPU,分配
From: https://blog.csdn.net/weixin_46091520/article/details/136632736

相关文章

  • 【论文阅读】Informer Beyond Efficient Transformer for Long Sequence Time-Series
    原始题目:Informer:BeyondEfficientTransformerforLongSequenceTime-SeriesForecasting中文翻译:Informer:超越有效变换器进行长序列时间序列预测发表时间:2021-05-18平台:ProceedingsoftheAAAIConferenceonArtificialIntelligence文章链接:https://ojs.aaai.org/i......
  • CF1634E Fair Share 题解
    题意:给定\(m\)个长度为偶数的数组,\(L,R\)是初始为空的两个多重集。将每个数组恰好一半的数放入\(L\),另一半放入\(R\),要求最后\(L=R\),要求构造方案或判断无解。\(m\le10^5,\sumn\le10^5\)。思路:首先我们不难想到,对于同一个数组内相同的值,可以成双除去,所以我们可以......
  • Efficient and Straggler-Resistant Homomorphic Encryption for Heterogeneous Feder
    为异构联邦学习提供高效且抗掉队者的同态加密技术(INFOCOM24'(CCFA))本文的结构和逻辑清晰,结构设置、文笔以及实验设置和实验分析都值得收藏和反复学习!!!摘要同态加密(HE)被广泛用于加密模型更新,但会产生很高的计算和通信开销。为了减少这些开销,有人提出了打包HE(PHE),将多个明......
  • CVPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
    前言 Meta研究者提出了一种改进思路,利用SAM的掩码图像预训练(SAMI)。这是通过利用MAE预训练方法和SAM模型实现的,以获得高质量的预训练ViT编码器。这一方法降低了SAM的复杂性,同时能够保持良好的性能。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公......
  • EfficientNet环境搭建&网络修改
    引子在深度学习CV领域,最初2012年突破的就是图像分类,发展这么多年,基本上已经没有什么进展了。此篇作为之前EfficientNet挽留过的总结,现在整理下,OK,让我们开始吧。一、EfficientNet安装1、pytorch版本网址:https://github.com/lukemelas/EfficientNet-PyTorch2、pipinstalleffic......
  • 【阅读笔记】边缘损耗率评价指标《A New Hardware-Efficient Algorithm and Reconfigu
    论文《ANewHardware-EfficientAlgorithmandReconfigurableArchitectureforImageContrastEnhancement》提到对对比度增强的图像进行客观评价,引用论文《ImageEnhancementforBacklight-ScaledTFT-LCDDisplays》中的边缘损耗率指标(Theedgelossrate)。原文:Contrast......
  • Go 100 mistakes - #21: Inefficient slice initialization
          ConvertingoneslicetypeintoanotherisafrequentoperationforGodevelopers.As wehaveseen,ifthelengthofthefuturesliceisalreadyknown,thereisnogoodreasontoallocateanemptyslicefirst.Ouroptionsaretoallocat......
  • Sample-Efficient Deep Reinforcement Learning via Episodic Backward Update
    发表时间:2019(NeurIPS2019)文章要点:这篇文章提出EpisodicBackwardUpdate(EBU)算法,采样一整条轨迹,然后从后往前依次更新做experiencereplay,这种方法对稀疏和延迟回报的环境有很好的效果(allowssparseanddelayedrewardstopropagatedirectlythroughalltransitionso......
  • Linux调度pick_next_task_fair整体框架解读
    pick_next_task_fair是CFS调度类中选择next任务的主要路径,其主要功能是从当前CPU的就绪队列cfs_rq中选出一个可运行的任务作为"next任务",并将前一个任务prev重新放到就绪队列。 下面是这段代码框架流程解读。1判断rq->cfs.nr_running>0?如果不满足说明没有可运行任务则gotoidl......
  • 【阅读笔记】《A New Hardware-Efficient Algorithm and Reconfigurable Architecture
    一、对比度增强算法AGCWD硬件化实现2013年发表在TIP上的对比度增强算法AGCWD(Efficientcontrastenhancementusingadaptivegammacorrectionwithweightingdistribution)2014年发表在IEEETransactionsonImageProcessing的《ANewHardware-EfficientAlgorithmandReco......