11月23日,“2023第八届IDC中国数字化转型年度盛典”正式开启并揭晓“2023 IDC中国未来企业大奖-卓越奖”获奖企业,奇瑞捷豹路虎汽车有限公司(以下简称“奇瑞捷豹路虎”)凭借“基于云原生的智慧化运营平台”项目,继获得“2023 IDC未来企业大奖—未来运营领军者优秀奖”后成功荣膺“2023 IDC中国未来企业大奖—未来运营领军者卓越奖”。
面对日益复杂的“一车一单”客户个性化需求,奇瑞捷豹路虎将传统汽车制造与智能制造优势深度融合,树立汽车行业智能制造新标杆,率先应用工业互联网、云计算、大数据及AI/ML技术,实现“人机网场”互联互通,将核心系统上云,作为业界首个启用端到端制造执行系统MES的企业,实现订单、制造、质量管理、物流、追溯等功能全覆盖,直接推动成本节约,有效提升账务系统/采购系统及物料管理系统效率,推动了企业数字化转型,这也是奇瑞捷豹路虎能在本次IDC奖项中脱颖而出的原因。
一个传统线下运营IT基础设施的企业在数字化转型过程中一定会面临一些问题:是否要上云?上云后如何带来经济收益和其他优势?长期来看,如何提升团队成员云相关技能?如何开展精益云上运营?如何推进基于云的企业文化建设,从而加速数字化转型步伐?
上云前:合理精简云上资源
合理精简(Right Sizing)是指以最低的成本将最适合的资源类型和规格与工作负载的性能和容量要求相匹配的过程。它也是查看已部署的资源类型和规格并确定在不影响性能、容量或其他要求的情况下替换或缩小资源规格的过程,这是上云早期非常重要一环。
但在企业首次迁移上云时,往往被忽视。很多用户使用lift and shift,不做任何合理精简的动作,由于迁移的时间和性能要求往往优先于成本,这导致了一上来就资源规格过大,大量资源未被使用,从而造成云资源浪费。
亚马逊云科技专业服务团队对现有SAP生产环境各类数据进行综合分析,并根据预估未来业务增长速率,最终确定支撑SAP业务系统所需的云资源配置,从选择结果可以发现上云可以充分利用云资源的弹性优势,不需要等比选择跟现在相同配比和数量的机型。以五年为计,不做合理精简(Right Sizing)云资源的费用是传统硬件费用的2.6倍,而做过之后,节省7.1%,这里还未包括,电力,空调,机房租赁等费用的节省。
合理精简流程是一个多阶段的复杂过程,包括收集来自不同来源的原始统计数据、进行数据分析、分类,工作负载,并最终总结结论的过程,分析数据包括操作系统层面、数据库、应用数据等。
上云后:云成本持续优化方法和思路
2022年8月,奇瑞捷豹路虎SAP系统包括数据湖等应用一起迁上亚马逊云科技,自此双方团队共同开启了云上持续优化之路。首先,确定了几个核心指标点,并根据这些指标编制相应的报告。通过成本分析报告图,识别出了可能的优化方向,并在接下来的一年时间内,从以下几方面分别进行改进:
1. 合理精简及机型优化
1.1 实例计费方式
根据SAP系统的特点和业务场景,可供奇瑞捷豹路虎选择的实例有四种付费方式:按需实例、预留实例、Spot实例,以及专用主机。由于考虑到SAP系统在生产过程中数据处理和用户访问都是可预测的,因此总体来说,SAP生产环境采用预留实例,SAP非生产系统根据预估的年内累计开机时长来决定购买采购模式,时长低于半年的采用按需实例,时长超过半年的就购买预留实例。
1.2 实例类型调整
亚马逊云科技提供超过750种类型的计算实例,根据性能特点可以分为通用型、计算优化型、内存优化型、加速计算、存储优化型等。如何选择合适的机型给到不同应用系统,奇瑞捷豹路虎的团队根据SAP应用特征进行了持续观察并做了机型调整。
1)ASCS/ERS CPU利用率较高,更匹配计算优化型实例,所以选择了C5家族的实例类;
2)PAS/AAS/DB内存利用率较高,更匹配内存优化型实例,所以选择R5家族实例;
3)非生产环境下的开发和测试系统,数据量和访问量不高,更适合M5家族通用型实例;
4)云上着陆区Shared账号下的共用系统,如:基础架构即服务,代码仓和版本控制,软件包管理服务器等使用价格更低的T3家族实例。
通过机型调整,不仅提升了计算资源的利用效率,还能减少了的浪费,同时也降低了云成本。
1.3 实例类型现代化
亚马逊云科技实例类型的大小,新旧不同代次,每小时的价格都是不一样的。亚马逊云科技技术专家建议使用最新一代的实例类型来运行工作负载,因为最新一代的性价比会更高。根据这个提议,调整了不同批次的工作负载尽量求大同到最新的实例类型,光是这个调整单个实例就节省了20%~50%不等。
2. 预留实例的覆盖及利用
预留实例(RI)是在工作负载运行了一段时间(通常为1-2个月)趋于稳定后优先考虑的重要降本手段。亚马逊云科技技术专家协助奇瑞捷豹路虎团队使用Amazon原生的Compute Optimizer和Cost Explorer等工具来更好的购买及管理RI。
首先,Compute Optimizer可以帮助分析并推荐合理的实例类型及大小。其次,Cost Explorer会根据不同账号下资源的使用情况提出相应的RI购买建议,并持续监控RI的覆盖率和利用率。在此前提下,奇瑞捷豹路虎团队购买了适合其工作负载特点的足量预留实例,从而在确保利用率(不浪费)的情况下尽可能多的通过预留实例享受折扣。
3. 资源清理和标准化
闲置资源回收:
成本优化阶段,亚马逊云科技通过工作坊的形式介绍了Cloud Financial Management(CFM)的概念,强调:
1)团队协作;2)成本节约,人人有责;3)每个人对云的使用量负责。
根据每个人在云上所掌握的技能情况负责不同资源的成本管理,即每个人都拥有云使用的所有权,每个人对云的使用量负责。基于FinOps的循环方法论:信息、优化和运营。每天通过Cost Explorer监控资源使用情况及费用变化趋势,定期寻找僵尸、闲置和孤立的资源并终止它们。也能达到资源合理利用,降低成本的目的。
4. 数据库及存储生命周期管理及优化
4.1 SAP QAS应用和数据库拆分
奇瑞捷豹路虎SAP系统上云后,发现最初整合的同系统服务器存储和资源使用并没有达到降本增效的效果,反而因为合并后产生了更多的授权费用,因此经过团队综合讨论,提出了拆分服务器改进计划。
此次的改进计划不仅仅是为了下调成本,更是为了提高整个系统的可用性和稳定性,通过将应用程序和数据库进行拆分,可以减少单个服务器承载的压力,提高系统的性能和响应速度。同时,将数据库所在计算实例的CPU下调也可以降低Oracle license相关的费用,从而达到成本优化的目的。
4.2 S3、EFS、EBS生命周期管理及清理
奇瑞捷豹路虎SAP项目上云后,主要使用了S3、EFS、EBS三大类相关存储,同时从账单和存储监控发现了僵尸数据和项目过程相关数据,团队初步判断此类型数据可以进行清理,从而保障各类存储的合理利用。
经过前期成本跟踪分析,发现了云存储存在大量的冗余和重复数据,如S3线下迁移临时备份文件、项目软件备件,EFS项目过度文件,EBS相关验证和临时存放文件,为此,团队按照云账户和应用Owner进行排查,逐个确认S3、EFS、EBS相关目录,并邀请项目成员支持确认,确认无误后,奇瑞捷豹路虎团队启动了数据清理。
整个清理过程中,团队成员们认真负责,按照任务分配和时间计划,顺利完成了各项工作。这次云存储清理计划,不仅有效地优化了资源利用率和成本控制,同时也实现了云存储备份策略的优化。
4.3 RDS 成本优化
Amazon Relational Database Service(Amazon RDS)是一项Web服务,让用户能够在Amazon Web Services云中更轻松地设置、操作和扩展关系数据库。可为用户提供一个经济有效、容量可调的符合行业标准的关系数据库,并承担常见的数据库管理任务。
结合奇瑞捷豹路虎数据湖平台需求及成本因素,奇瑞捷豹路虎团队选择在Amazon RDS上创建PostgreSQL数据库实例来存放Data Market层的业务数据。在后续的实际使用过程中针对如下几个方面对RDS的使用进行了相关的成本优化:RDS存储类型、RDS Multi-AZ、RDS RI/Snapshot。
5. 监控管理及优化
随着奇瑞捷豹路虎各个应用系统及平台陆续迁入着落区,需要监控的系统和范围也增加了很多,同时也带来了较高的监控计算成本,在同亚马逊云科技团队进行深入沟通后,奇瑞捷豹路虎团队从如下几个方面对着陆区的监控进行优化:区分监控对象、定义监控指标、调整监控频率、管理日志生命周期、拓展监控预警渠道。
经过奇瑞捷豹路虎团队和亚马逊云科技支持团队的相互配合,优化后的监控系统在满足了快速反应的前提下,在整体成本上也有了很大程度的优化,监控成本降比达到了45%。
云上日常:建立组织和规范流程
在SAP系统上云工作完成后,奇瑞捷豹路虎团队针对云上环境和资源做了相应的优化工作,随后转入日常运维阶段。在这一系列实践工作中,团队总结出以下管理流程:
1)建立组织:创建虚拟的云上运维组织,该组织的划分主要基于云上功能模块。
云运维组织包括账号与权限管理、计算资源与网络管理、数据存储管理、安全管理及监控管理。
2)精细管理:为进一步优化成本,团队实施了精细化管理。云上运维团队成员不仅各自负责特定功能模块,还负责特定应用系统。
团队通过标签(Tag)对系统资源按应用以及应用模块来区分,实现精细管理。例如,团队区分出Datalake、SAP,并在SAP内部进一步细分子系统及模块,各应用负责人定期进行成本分析。
3)规范流程:完善并规范系统上云流程,当一个新的应用考虑上云时会根据以下流程进行实现:信息收集及研讨→云上架构设计→云上费用预估→会议及审批流程→应用团队资源申请→云运维团队资源评估→Cloud SA会议→亚马逊云科技资源创建。
- 申请亚马逊云科技账号,一般申请两个亚马逊云科技账号分别用于系统的DEV和PRD
- 新的亚马逊云科技账号加入现有亚马逊云科技Landing Zone(遵循统一的安全策略)网络资源的创建包括VPC,子网,路由表,TGW Attachment,安全组等
- 计算资源的创建EC2
- 存储资源的创建S3,EFS
- RDS资源的创建
- 数据备份及生命周期管理
- Cloud Watch配置
→系统服务创建及开启:基于云上资源搭建应用系统并开启相关服务,对于迁移上云或在云环境搭建的应用系统,云上资源创建完成后需要开启支撑应用的相关服务负责人:系统上云PM。
→亚马逊云科技成本优化:购买预留实例(EC2,RDS),定期云成本优化会议,讨论及跟踪需要优化的事项,落实到负责人:云架构及运维团队。
企业上云从来就不是一个团队或者一个人可以实现的任务。奇瑞捷豹路虎最初萌生上云想法时,各个IT子团队有各自不同的上云策略和目标。因此,当SAP上云计划真正进入日程,几乎涵盖了所有IT子团队的虚拟云团队才真正成立。这个团队汇集了来自于基础设施的架构师、网络专家、应用团队的产品经理、数据和中间件平台的专家、信息安全团队的顾问,以及制造和供应链IT、企业应用和数据等IT团队的精兵强将。
在亚马逊云科技原厂技术顾问和亚马逊云经济团队专家的指导下,奇瑞捷豹路虎IT组建了一个专业技术能力齐全、配合默契的云虚拟团队,团队包含业务需求分析和云方案评估人员、上云实施人员、云运维和成本控制人员。团队人员各自在云战略制定、平台选型、需求评估、应用迁移、运维和成本优化等领域充分发挥各自的专业能力和热情;将企业上云、用云、管云等工作和职责与各自的专业优势完美地集合,成功地实现了奇瑞捷豹路虎SAP系统的上云目标并保持成本优化工作持续进行。
经历了SAP上云、Data lake云迁移以及更多应用上云的实战,奇瑞捷豹路虎IT团队成功打造了一支松耦合、高敏捷、兼顾成本、安全和效率的云运营团队。团队中有一些成员在项目期间还获得了原厂的专业认证,并持续不断地挑战自我,为企业云战略的实现保驾护航。