首页 > 其他分享 >基于 Kubernetes 的企业级大数据平台,EMR on ACK 技术初探

基于 Kubernetes 的企业级大数据平台,EMR on ACK 技术初探

时间:2023-02-09 11:24:23浏览次数:59  
标签:Kubernetes ACK 平台 调度 企业级 EMR Spark 数据

作者:容器服务团队

云上大数据的 Kubernetes 技术路线

当前,大数据与机器学习领域颇为关注存储与计算分离架构,逐渐向云原生演进。以Spark 为例,云下或自有服务器可以选择 Hadoop 调度支持 Spark,云上的 Spark 则会考虑如何充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark on Kubernetes 的优秀实践。

1.png

大数据云原生化面临的挑战

存储和计算分离的架构,同时又带来挑战,例如:怎样构建以阿里云对象存储 OSS 为底座的 HDFS 文件系统?需要完全兼容现有的 HDFS,还要实现在性能对标 HDFS的同时降低成本;计算引擎 shuffle 数据存算分离,又要考虑如何解决 ACK 混合异构机型的支持问题,以及业界非常关注如何支持 Spark 动态资源。

引入 Kubernetes 之后, 如何调度优化性能瓶颈?性能对标 Yarn、实现多级队列管理。还有,如何借助 K8s,编排组织各种业务的波峰波谷,实现错峰调度?等等。

通过阿里云容器服务 ACK 运行开源大数据任务,将以集群为中心的视角切换成以作业为中心视角,还可以实现在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率。并且,实现了运维入口、运维工具链、监控体系的三重统一。此外,还支持多版本,如同时运行 Spark2.x 和 Spark 3.x 任务。

EMR on ACK 的架构与优势

12月,阿里云 EMR 2.0 正式发布,从平台体验、数据开发、资源形态、分析场景等方面实现全面创新。其中在资源形态侧,EMR 可以部署在阿里云容器服务 ACK 平台, 减少对底层集群资源的运维投入,以便于用户更加专注大数据任务本身。

EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。

EMR on ACK 架构如下

2.png

  • 轻量化管控,对接已有数据平台
  • 通过数据开发集群/调度平台提交到不同的执行平台
  • 错峰调度,根据业务高峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • ACK 管理异构机型集群,灵活性好

EMR on ACK 具备以下优势

  • Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案

    • 可以使计算节点无需本地盘和云盘
    • 支持打开 Spark 动态资源功能,Spark-25299
      终极方案
  • JindoFS 针对 OSS 存储提供湖加速解决方案

    • Block 模式1TB TPCDS 场景下有15%以上的性能提升
  • 调度层面支持 Scheduler Framework V2

    • 调度性能比社区提升3x以上
    • 提供多级队列管理
  • 引擎能力增强

    • 10TB TPCDS Benchmark 场景下,EMR Spark
      比社区有3x性能提升
    • Hudi、DeltaLake 比社区功能性能增强
  • 完整的错峰调度方案

国内知名广告营销服务商汇量科技已使用 EMR 产品4年。在业务快速增长的大好形势下,汇量科技面临越来越多的困扰:如数据来源复杂、数据量大、数据维度多、实时运营业务秒级数据新鲜度需求等业务需求;本次升级后,汇量科技在素材平台、热力引擎等业务的大数据平台搭建上,数据同步和及查询效率有数倍提升,系统稳定性显著提升,未再出现之前cpu、mem、io负载高等情况。

EMR on ACK:

https://help.aliyun.com/document_detail/280450.html

点击此处移步阿里云 EMR 2.0 发布会,了解更多

标签:Kubernetes,ACK,平台,调度,企业级,EMR,Spark,数据
From: https://www.cnblogs.com/alisystemsoftware/p/17104594.html

相关文章

  • MASA Stack 1.0 发布会讲稿 —— 产品篇
    架构基于MASA的云原生技术架构我们基于MASA去做了一个云原生技术架构,左下角的MASABlazor主要是为我们去集成一个多端的UI能力,具体的使用场景将在实践篇为大家介绍——M......
  • Kubernetes(k8s)控制器(三):ReplicationController
    目录一.系统环境二.前言三.ReplicationController概览四.ReplicationController工作机制五.创建ReplicationController六.扩展replicationcontroller副本数一.系统环境......
  • Kubernetes中PV&PVC访问模式
    问题为什么PV的accessmode设置的访问模式是ReadWriteOnce,但是其他节点还是可以读写。为什么PV的accessmode设置的模式为ReadOnlyMany,其他节点还是可以读写。前言这是明......
  • Cyclic Nacklace HDU - 3746 (kmp最小循环节)
    题意:现在给你一个字符串,请问在该字符串末尾最少添加多少个字符,可以让这个字符串获得重复循环序列。AC代码:#include<iostream>#include<cstring>usingnamespacestd;const......
  • API对象--Ingress(chrono《kubernetes入门实战课》笔记整理)
    【概念说明】Service的功能和运行机制,主要由kube-proxy控制的四层负载均衡,即根据IP、PORT来做负载均衡。而很多应用都是在7层做均衡更为合理,比如根据主机名、URI、请求......
  • CNStack 2.0:云原生的技术中台
    在进入千禧年后,随着计算机技术的发展和业务创新的不断涌现,许多大公司内的IT计算中心也在酝酿着变革。一方面,各部门相对独立的IT管理平台已经难以满足日益增长和不断变......
  • 关于webpack 开启代理proxy后,接口看不到代理地址的问题。
    今天在项目中发现,  明明在proxy里代理了 接口地址确不是10.10.11.106/front/xxxxxx。这是为啥呢?changeOrigin的修改也是一样,在网络请求中发现host还是没改。这又......
  • 使用Logback实现不同微服务输出各自的日志文件
    找到logback-spring.xml配置文件,在里面使用如下配置<!--定义策略日志文件的存储地址--><propertyname="logStrategy.path"value="./logs/strategy"/><!--按照每天生成......
  • jenkins 添加kubernetes-k8s
                   ......
  • webpack
    webpack4webpack是一个用于现代JavaScript应用程序的静态模块打包工具。当webpack处理应用程序时,它会在内部构建一个依赖图,此依赖图对应映射到项目所需的每个模块......