首页 > 其他分享 >如何正确执行 DORA 指标

如何正确执行 DORA 指标

时间:2023-11-13 10:12:27浏览次数:40  
标签:正确 失败率 部署 指标 时间 DORA 变更

DevOps 研究与 DORA 评估指标可帮助我们深入了解软件开发和交付流程的性能和效率。这些指标包括部署频率、变更交付时间、变更失败率和平均恢复时间等方面。DORA 指标对于管理开发团队(从团队领导到 CTO)都很重要,因为这些指标提供了对团队交付软件情况的数据驱动的了解。这篇文章将带您了解这些指标是如何计算出来的,以及它能告诉我们团队的表现如何。
 

部署频率

定义

部署频率衡量团队成功将代码发布到生产环境的频率
 

重要性

高部署频率通常是成熟的 CI/CD 流水线以及开发、QA 和运营之间有效协作的标志。它能加快反馈循环并更快地适应市场变化。
 

请注意,在 DORA 的四个指标中,这是唯一一个越高越好的指标,因此为了便于绘制图表,您可能需要计算 1/频率或类似的反向指标"平均部署间隔时间",数值越高意味着发布速度越慢。
 

衡量部署频率

本文中的度量指标按照难度从易到难的顺序排列。部署频率只要求我们知道部署发生在某个时间。在此基础上,我们就可以计算出以日、周或月为单位的柱状图。在 DORA 指标项目 "四个关键"中,计算中的唯一复杂之处是为没有部署的时间段创建行。
 

评估部署频率

更频繁的部署意味着更快、更敏捷的产品团队。性能级别定义参考以下:

Elite High Medium Low
按需部署(每天多次部署) 每周一次到每月一次部署 每周一次至每月一次部署 每月一次至每六个月一次部署

Source: 2019 Accelerate State of DevOps, Google
 

变更的交付时间

定义

变更的准备时间是指将提交部署到生产中所需的中位时间。计算提交和成功部署到生产之间的时间差。取特定时间段内这些值的中位数。
 

重要性

更短的交付周期通常表明开发和部署流程得到了简化。这表明团队可以快速交付功能、修复或更新。
 

测量变更的交付时间

在测量变更的交付时间时,时间跨度的起点应该很简单:即拉取请求(PR)的创建或合并时间。要获得提交部署到生产中的时间,我们需要部署频率中的部署信息。同时还要求变更流程的开始包含一个 ID,该 ID 将贯穿部署步骤。这可能看起来像部署上的一个包含拉取请求 ID 的标签。只要 ID 从拉动请求一直延续到部署即可。当我们有了一个 Lead_times 数组,我们就可以将这些交付时间相加,然后除以 {length of time window}.
 

评估变更交付时间

虽然改进审核流程等措施可能会增加这一价值,但一般来说,变更最好还是在提交后不久发生。性能级别定义参考以下:
 

Elite High Medium Low
不足一天 一天至一周 一周至一个月 一个月至六个月

Source: 2019 Accelerate State of DevOps, Google
 

恢复服务的时间

定义

恢复服务所需时间是指发生故障后恢复服务所需的中位时间。当相关错误或事件报告关闭时,即认为修复工作完成。
 

重要性

恢复服务的时间越短,说明事故管理越有效,系统越有弹性。它能最大限度地减少停机时间和对终端用户的影响。
 

如何衡量恢复服务所需的时间

恢复服务的时间是最难衡量的指标。与其他三个完全可以通过源控制来衡量的指标不同,我们需要知道事件开始和结束的时间,因为每个人认定的时间点都会有所偏差。在一些企业中,事件发生时间最终会通过手动输入来计算正常运行时间,但这样的出的结果并不理想。一般来说,有三种方法可以确定事件的时间跨度:

  • 综合监测:有时也称为 "pinger"。如果我们向一个设定的 URL 发送一致的请求,我们就能确定事件发生的确切时间范围。这样做的明显弊端是出现假阴性,即综合监控器认为服务没有宕机,因为尽管出现了意外行为,但返回的结果却是 200。在过去几年中,综合监控已经变得更加复杂,因此可以进行更像端到端的测试。

  • 记录错误、引发异常或直接监控代码:如果出现内部错误,我们通常就可以认为发生了故障。这种系统既可能将真实的故障误判为无故障(假阴性),也可能在没有故障的时候误报故障(假阳性)。有时函数可能会引发错误,但用户仍能得到满意的响应。这可能需要改变对错误的定义。例如,我们可能有一个用户查询服务,当没有找到匹配记录时就会引发错误。因此在通过日志记录衡量事件时,我们需要改变非关键故障引发标志的级别。

  • 通过统计阈值(如响应时间)进行测量:从统计性能推断事件是可行。如果响应时间急剧延长,尽管容量有所降低、服务仍在运行,也可将其视为事件。这种方法的最大优点是能密切反映用户的期望。一个网站的加载时间超过 15 秒,即使代码从未出错,或者系统最终总是发送 "良好 "的响应,用户也会认为该网站 "宕机 "了。
     

除非您目前正在非常密切地测量事件,否则确定恢复服务的时间很可能需要使用可观测性工具来测量新信息。对于刚刚探索测量开发人员速度的小型团队来说,手动记录事件发生时间作为事后分析流程的一部分也许是可行的。
 

恢复服务时间统计的最终计算结果为: sum([array of all incident lengths])/{number of incidents} .
 

评估恢复服务的时间

该指标可能已经成为运营团队的核心能力。性能级别定义参考以下:
 

Elite High Medium Low
1小时以内 1天以内 1天以内 1周至1个月之间

Source: 2019 Accelerate State of DevOps, Google
 

变更失败率

定义

变更失败率是指失败的部署数量与部署总数的比率
 

重要性

变更失败率越低,说明系统越可靠,测试程序越有效。它表明新的变更不太可能带来问题。
 

如何衡量变更失败率

在默认情况下,变更失败率(如恢复服务的时间)依赖于计算部署和事件,并计算两者之间的比率。这有一些隐含的假设:它假定唯一重要的故障是那些影响用户的故障,并且所有失败的部署都持续了足够长的时间,以至于引发事故。还有一个问题是,这里关键的衡量标准是事件的数量,而不是时间的长短。因此,如果一周内有多次部署,持续 24 小时的故障看起来没什么问题,但 20 次 5 分钟的中断看起来就非常可怕了。如何获得更可靠的变更故障率?有三种可能的途径:

  • 定义标准回滚流程。如果您决定事件响应团队始终标记失败的 PR 或始终使用 git rewind,则您可以直接测量更改何时失败。

  • 采用金丝雀流程,例如 Argo Rollouts,并将回滚计为失败。

  • 定义事件何时算作失败的标准。例如,根据部署频率设置算作故障的事件的最短长度。
     

在上述例子中,看起来变更失败率是一个比其他三个 DORA 指标更模糊的统计数据。不过根据 DORA 小组,变更失败率的最终计算方式是 {number of deployments in time window} / {number of failures in time window}
 

评估变更失败率

有时,变更的失败率可能包括较高的误报率。如果您将部署的最后阶段用作测试组件,比如进行最终集成测试,那么如果变更经常失败,可能也没什么好担心的。DORA 小组的标准是:

Elite High Medium Low
0-15% 0-15% 0-15% 46-60%

Source: 2019 Accelerate State of DevOps, Google
 

特别情况

对于所有这四种指标,都有可能出现指标增量实际上情况并没有那么糟糕的时候。例如,如果我们通过实验提高代码部署的速度和便利性,那么变更失败率就有可能上升。有了更好、更可靠的审查流程,部署时间可能会增加。但是,在所有这些情况下,流程的改进应该会导致其他三个指标的显著改善。这些非常高层次的指标可以帮助更多好的改变,即小的变更会带来速度上的大改善。
 

DORA 指标能说明什么?

DORA 指标旨在提示开发团队的整体生产力。这些指标衡量的是您的开发人员平台提高开发人员速度的能力;换句话说,是开发人员环境、部署系统和测试在轻松可靠地发布代码方面的效率
 

开发团队可能非常努力地工作并编写出了优秀的代码,但他们的 DORA 指标可能仍然很糟糕,因为测试和部署过程容易出错、工作量大,而且需要大量的人工干预。这种困难的开发人员体验会影响开发人员的整体开发速度,但解决办法并不是让产品工程师更加努力地工作。解决 DORA 指标不佳问题的办法是认真审视内部平台的开发人员体验,并将平台工程作为团队的真正优先事项
 

DORA 关系到开发人员的生产力

如果代码易于测试和发布,并且您的开发环境与生产环境非常相似,那么开发团队就可以减少回滚,更快地将代码发布到生产环境。这种速度不仅仅是技术卓越性的指标,它意味着你的团队在满足用户需求方面做得更好。
 

了解和实施 DORA 指标不仅是一项技术工作,也是平台工程师和开发团队领导者的一项战略任务。这些指标提供了从代码提交到部署和事件解决的开发流水线的整体视图。它们是衡量团队敏捷性、运营效率和整体开发速度的关键指标。
 

虽然只关注开发团队的产出很有诱惑力,但 DORA 指标显示,开发人员的体验同样至关重要。繁琐、容易出错的部署流程甚至会严重阻碍最有能力的开发团队。投资平台工程和改善开发人员体验是优化这些指标的重要步骤。请记住,在快节奏的软件开发领域,原地踏步是行不通的。将 DORA 指标作为优先考虑事项,企业将具备良好的适应能力、创新能力和卓越能力。
 

参考链接:

https://thenewstack.io/how-to-do-dora-metrics-right/

 

标签:正确,失败率,部署,指标,时间,DORA,变更
From: https://www.cnblogs.com/sealio/p/17828565.html

相关文章

  • Fedora 安装 build-essential
    .....在Ubuntu系统中安装build-essential包就可以一键安装常用的编译工具链,但是在Fedora系统中没有这个包。在Fedora系统里面,这个包变成了一个名字为“DevelopmentTools”的组,所以安装命令如下:>$sudodnfgroupinstall"DevelopmentTools" ......
  • vue无法正确使用mastache渲染实例
    问题:<script>varvm=newvue({el:"#app",data:{message:"hello,vue!"}});</script>这段代码中,`vm`是通过`newVue()`创建的一个Vue实例。但是在HTML文件中,`<divid="app">`元......
  • 解决 Fedora Live-CD 启动时出现 Invalid image 的问题
    .....安装Fedora39的时候,Live-CD启动报如下错误:InvalidimageFailedtoreadheader:UnsupportedFailedtoloadimage:Unsupportedstart_image()returnedUnsupported尝试了各种解决办法未果,后来在Fedora论坛上发现有人在Fedora37时遇到过同样的问题。......
  • 如何修复页脚的 CSS 属性无法正确显示的问题?
    修复页脚的CSS属性无法正确显示的问题需要进行以下步骤:检查CSS代码:检查页脚CSS代码中是否存在拼写错误、语法错误等问题。确保代码中的所有属性和值都正确书写。检查选择器:确认CSS中的选择器是否正确匹配到页脚元素。可以在浏览器开发者工具中检查元素的样式是否被正确应用......
  • 正确清理C盘,告别C盘爆红!!!
    前言提示:空间清理操作会涉及对一些系统文件和个人文件的改动。请小白参照教程仔细操作,我会对以下每种方法标注难度和安全性提示。小白可以根据自身情况量力而行。一、缓存清理win11自带了清理软件。清理步骤:单击桌面左下角“开始键>>选择设置。点击系统>>选择存储>>存储感知设置为......
  • 以下对闭包(closure)理解正确的有 ABCD
    以下对闭包(closure)理解正确的有ABCDA闭包是指有权访问另一个函数作用域中变量的函数;B函数内再嵌套函数,返回到外部形成闭包;C内部函数可以引用外层的参数和变量D参数和变量不会被垃圾回收机制回收闭包的作用​ 1可以读取函数内部的变量​ 2可以把变量始终保存在内......
  • 支撑企业数字化经营,《2023指标平台白皮书》正式发布
    导语随着宏观经济步入新常态和市场不确定性加剧,我国企业的经营环境正在发生深刻变化。为了更好地应对挑战,企业需转向高质量发展,通过精细化管理等手段优化业务结构、提高运营效率和创新能力。在数字经济时代,借助数字化手段实现数字化经营成为驱动企业高质量发展的关键途径。指标体系......
  • 语句var arr=[a,b,c,d];执行后,数组arr中每项都是一个整数,下面得到其中最大整数语句正
    语句vararr=[a,b,c,d];执行后,数组arr中每项都是一个整数,下面得到其中最大整数语句正确的是哪几项?AMath.max(arr)BMath.max(arr[0],arr[1],arr[2],arr[3])CMath.max.call(Math,arr[0],arr[1],arr[2],arr[3])DMath.max.apply(Math,arr)正确答案:BCDA选项错误......
  • 当用户打开一个网页时,想一直停留在当前打开的页面,禁止页面前进和后退,以下正确的是
    Awindow.history.forward(1);Bwindow.history.back(1);Cwindow.history.go(-1);Dwindow.history.forward(-1);正确答案:AD现在已经打开了一个新的网站,这个网站可以后退,不可以前进(因为不是通过后退打开的)。在这样的情况下,执行ABCD四个选项,当执行A或D的时候,由于网站是新打......
  • Tita |「绩效管理」定量考核指标公式设置焕新升级
    1.定量考核指标公式设置焕新升级,同时支持企业指标库设置公式Tita-OKR和新绩效一体化管理平台支持设置更多场景计算公式,详细设置请参考此文档;企业指标库2.在允许员工添加指标的场景下,可限制考核指标数量或者权重详细设置请参考此文档;3.发起考核时,支持按更多人员信息......