首页 > 其他分享 >做了运维总监才知道,专业的运维团队有多重要

做了运维总监才知道,专业的运维团队有多重要

时间:2024-01-11 12:05:56浏览次数:40  
标签:总监 服务 运维 信息系统 业务 开发 团队

信息系统的生命周期包含:设计、开发、测试、部署上线、运行维护。

其中,运行维护阶段是信息系统生命周期中的关键环节,其执行效果直接影响系统是否能达到预期的运行目标。

建立一个以业务服务为导向的专业化运维服务团队,为行业提供高效、优质的运维服务,确保系统的稳定运行和用户体验的优化,为行业的高质量发展提供信息化支持。

一、开发与运维的关系

在一个信息系统中,开发是第一步,运维是第二步。

软件系统在开发过程中存在的稳定性问题,在运维阶段可能会被放大。

从信息系统整个生命周期管理过程来看,80%的基本工作可能发生在运维阶段,运维的任务也相对繁多。

运维的价值体现在解决开发过程中忽略的问题,如程序本身的性能不优、内存泄漏、结构耦合、日志不规范等,这些问题都会给系统运维带来许多困扰,还会降低软件系统的稳定性。

在信息系统运维中,我们可以将其运维价值分为三个层次

  • 第一层:提供低成本、高质量、高效、可扩展的基础运维服务,保证业务持续稳定运行;
  • 第二层:通过运维数据的挖掘和分析,为业务发展方向提供决策支持;
  • 第三层:提供基础的IT计算服务,除了服务企业自身,还可以服务外部客户,进一步为企业创造价值。

从基层职位看,运维和开发的分工有很大的区别。开发主要负责设计和编码,主要考虑功能和非功能的实现;

运维则负责系统上线后的稳定、高效运行。

在所需技术上,开发重点在各种开发语言、开发框架、持续集成环境、软件工程、算法以及对应的业务等方面,对底层的运行环境关注较少,尤其在上云环境后,更少关心负载均衡、高可用等非功能需求。

运维的重点在于系统运行的各种环境,从机房、网络、存储、物理机、虚拟机等基础架构,到数据库、中间件平台、云平台、大数据平台、安全管控、运维开发(AIOps负责开发运维工具和平台),其关注点并不在业务流程的设计和实现,而是对这些平台的使用、管理和优化。

开发团队以信息系统的建设为目标,通过使用软件开发技术实现业务流程的信息化,只要系统具有预定的功能,能够支持业务开展,就可以达到目标。开发工作是短期行为,后期优化以软件为目标对象。

而运维团队以可量化的服务为目标,确保信息系统包含的所有组件能够正常运行,进一步支持公司业务的正常开展。运维工作是长期行为,是一个持续不断对服务行为进行优化的过程,服务的目标对象是人与信息系统的结合。

目前流行的 DevOps 提出“谁开发谁运维、开发运维一体化”,但具体如何实施并没有明确的说明。特别是“谁开发谁运维”,这明显是不符合实际情况的。试想一下,一个开发人员开发的应用服务都由他自己来运维,他能运维几个应用服务?然后又有多少时间能继续做开发?到最后岂不是所有开发人员都成了运维人员。

DevOps 开发运维一体化并不是让开发去做运维,而是使开发和运维通过一些机制有机结合、高效统一,成为一个整体,从而消除开发团队和运维团队之间的隔阂,有效提升应用服务的研发和运维运营效率。

开发运维一体化追求的是开发和运维的利益一致,而不是一个人既做开发也做运维。这需要通过一定的机制和借助相应的工具等来保证,使开发和运维之间能够有活动关节、有润滑剂。开发运维一体化的重点在于提升运维的效率,包括应用、环境、平台、工具、基础设施资源等。

术业有专攻,开发与运维各有所长。开发应更专注于业务流程的便利性与自动化,而运维更专注于系统的安全性、稳定性、隐患的预见性、问题的快速排查处理,保障业务的连续性和用户操作的体验性。

二、运维服务专业化的体现

让专业的人做专业的事,是现代社会给所有行业带来的最有价值的观念之一。

建立专业的运维团队能够降低企业在非主业方面的人力成本、管理成本,把最大的优势和力量放在对企业核心内容的运营和管理上。

专业的运维团队的价值可以通过以下几个方面体现:

1.运维的服务质量

运维服务的体现是我们向行业各级单位的业务操作人员提供高质量的服务,支撑各信息系统的正常运行。服务的本质是规范,并且文明;能让用户真切地感知到运维人员的服务态度和体贴入微的技术支持,帮助用户快速、优质地解决在业务操作过程中遇到的实际问题。

2.流程的规范性

IT服务管理体系的建立和有效运行,从服务方层面看,体系的建立提供了更好的控制、更高的效率和更多改进的机会;从客户层面看,体系的建立确保了服务方所提供的IT服务能真正满足业务需求并保持一致,提高了IT系统的可靠性和可用性,增强了对最佳实践、目标利益和服务管理中可能的问题的理解,保障了客户IT系统的持续稳定运行,从而实现了客户IT投资价值的最大化。通过体系运行标准要求,可以帮助服务提供者在战略层面和IT服务过程层面设计量化的IT服务绩效目标和IT服务管理过程指标,一方面保证了经营结果能达到战略目标的要求,提高公司IT服务战略的执行力和IT服务的可持续发展;另一方面,确保能提供满足客户需求、符合服务级别的持续可靠的IT服务,并不断提升IT服务管理的成熟度。

3.稳定的运维团队

运维团队中的员工流失将会造成工作的被动,有时可能会降低问题的解决速度甚至会影响到用户的业务正常操作,新加入的员工由于工作经验有限,且不能快速上手,工作效率也较低,这势必会造成企业工作质量的下降,从而影响客户的满意度。尤其是大批量的员工离职,势必会造成公司整体服务质量的下降,导致企业客户满意度的急剧下降,企业也面临着危机。有一个稳定的运维团队将会为行业带来更多的体验与价值。

4.运维服务的满意度

建立一个专业化的服务平台,从呼叫中心建设到问题反馈平台及服务质量监督渠道等,让所有提出人员能感受到专业和尊重。行业用户在与这些专业人员交流时能感受到服务的专业性。最终让信息系统业主方和使用方均满意。

5.服务质量监管

建立完善的客户服务监管体系,确保公司提供的运维服务是满足客户所需的,寻找服务过程中的不足和问题,为服务的有效实施提供目标和方向,保证服务质量稳定可控提升.有效提升IT运营价值,全面降低IT运维成本,改善用户体验.

具体来说,对于IT运维服务的供方,需要通过对服务过程能力和服务质量的量化,检查自身存在的问题和改善的机会,帮助服务组织以最符合成本的方式提供满足客户需求的IT服务产品;对于IT运维服务的需方,需要通过对供方IT服务能力的量化评价选择符合需要的供应商,同时,也需要通过对服务质量的量化来检验供方提供的实际服务是否满足双方的服务等级。

6.业务高度熟练

运维服务人员对业务的熟悉将有助于与用户进行沟通,熟练掌握业务操作方法,将能从业务操作人员的角度去考虑问题,去帮助用户解决系统可能发生的异常现象,最终能快速应对和解决用户提出的问题。

7.专业性强

运维服务人员不仅要具备业务操作能力、问题解决能力、良好的服务态度,更要具备较高的专业性,在操作系统掌握的基础上,还需掌握计算、网络、存储、数据库、中间件及业务架构方面的知识。

运维人员的专业性体现在以下三个核心竞争力上:

  • 操作系统原理的掌握:现在很多应用和服务还是运行在 Linux 或者 unix 操作系统上,所以对应出现问题应该怎么去排查,性能怎么去优化,监控怎么去做,而这些都是需要对操作系统原理和架构清楚的,所以操作系统是运维的核心对象,也是最基础的。
  • 业务和架构的深入掌握:运维会负责不同产品,它们之间的区别到底是什么,运维人员需对所负责的业务和架构的深入理解。比如某人是做存储的,对整个存储的架构,整个链路,底层的理解,以及关联的存储网络、存储硬件的了解和掌握,是非专业人员不可替代的部分。
  • 运维方法论的深入掌握:运维人员要具有一套利用什么知识、用什么样的方式、方法来解决用户提出或系统发生的问题。如熟练掌握shell语言,能够具备脚本编写能力,提高自动化运维水平;熟练掌握数据库运行机制,优化参数提高数据库运行效率;熟练掌握云平台运行和维护原理,提升云平台运维水平。

这些专业技能和核心竞争力的提升能够快速应对用户发现的问题和解决系统可能出现的隐患,提升运维服务水平。

  • 运维服务的安全性:信息系统的安全性包括硬件基础设施、软件漏洞、系统产生的文件或数据、数据通信及接触系统的人。从各方面都需要有一个专业运维团队来保障信息系统的安全性。
  • 一个专业的运维团队经过内训、规章制度和公司文化等方面的培养,对一个公司来说安全是其生存的生命线,将会直接促使员工真正认识到安全的重要性,并能按照安全的要求和管理方式去做任何事,融入到每个员工的内心中。
  • 一个专业的运维团队根据系统的运行特点会提前做好安全保障措施,所有运维人员能按照安全保障措施开展所有运维工作,真正实现安全的落实。
  • 高可用的应急预案制定:系统或整个支撑平台一旦出现了异常,将可能影响某个企业或整个行业的生产计划执行,对于运维人员来说此时最急于快速给出解决方案恢复系统的运行,如有应急预案将使运维人员能够轻松应对且能快速给予处理,快速恢复系统可用性,使用户感知的服务体验更好。
  • 具有系统隐患及业务需求匹配度的高预判性:企业的业务随着经营变化对信息系统的配置要求也可能发生变化,为了精准的预测到业务变化,需要有一个专业团队对系统进行监测和分析,并根据业务趋势去提前进行优化,确保在业务高峰期信息系统能够顺利支撑。系统在开发建设时可能存在一些隐患,在建设时并未意识到可能存在的风险,特别是一个行业性的信息系统,存在的隐患可能影响范围比较广,如不能及时发现和改进将会影响整个行业的业务进行。如有一个专业的运维团队通过运维人员的测试和研究,可以提前发现系统的隐患并给予解决。

三、统一建设系统运维面临的问题

  1. 如何处理不同场景下的运维问题

行业针对不同业务建立不同的业务系统,各个业务系统之间有互联和数据交互,有时可能需要两个系统去共同去解决才可以解决用户的问题。如有一个专业运维团队,他的信念是为行业提供优质的运维服务,他会去协调不同的运维服务商去联合解决问题。行业系统业务操作水平参差不齐,提出的问题各式各样,有一个专业运维团队,统一入口定期会整理行业遇到的共性问题向行业发布;专业运维团队将会进一步考虑服务的本质,不管是操作水平低的还是高的服务水平要保持一致,不会因人而异。

  1. 如何保障用户的服务质量

服务质量的有效保障,对一个信息系统的运维的目的和意义来说是不言而喻的。有一支专业运维团队按照ISO20000和ISO9001体系去运行和管理是可以保障业主方的服务质量。

  1. 如何保障行业信息数据安全

非专业运维团队由于人员流动、安全意识宣贯、安全监督体系缺失,如给行业提供运维服务将可能面临核心系统数据泄露安全风险。行业自有专业运维团队将会大大降低信息安全风险。

  1. 如何选择运维模式

行业现在有多种运维模式存在,如:行业统一管理、管家式运维、行业各企业自行管理、统一和分散相结合的管理,自主运营、混合运营、全外包服务或半外包服务的方式、行业内自建公司运营等。行业统建系统如何选择运维模式,更好的为行业提供高效、优质的运维服务,是我们值得思考和亟需解决的问题。

四、总结

以服务用户中心,不断提升服务质量,提升用户体验,不断提高运维效率,提高系统管理的效能,真正实现IT系统的价值运维、效率运维、和安全运维。

  • 价值:端到端的维护,关注用户体验,优化对核心业务的质量,保障运维的价值。
  • 效率:提高系统管理的效率,如故障处理,日常巡检等
  • 安全:保障信息和数据的安全。

建设专业化运维服务团队的必要性,不仅能够提高信息系统的稳定性和用户体验,还能够为行业的高质量发展提供信息化支持。

标签:总监,服务,运维,信息系统,业务,开发,团队
From: https://blog.51cto.com/u_15576159/9195065

相关文章

  • 【独立闯天下】Prime新传奇!原团队的Blazor版本迟迟无音,合并请求石沉大海。于是,我们决
    共建Prime的Blazor版:为开源社区注入新活力Prime组件库作为一款广受欢迎的开源组件库,一直以来都备受开发者们的青睐。然而,随着技术的不断发展和更新,原团队的Blazor版本似乎已经逐渐失去了活力,长时间没有得到更新和维护。在这样的背景下,一群热爱开源、热衷于Blazor技术的开发者们决......
  • clickhouse 优化实践,万级别QPS数据毫秒写入和亿级别数据秒级返回 | 京东云技术团队
    1、背景魔笛活动平台目前在采集每个活动的用户行为数据并进行查询,解决线上问题定位慢,响应不及时的问题,提升客诉的解决效率。目前每天采集的数据量5000万+,一个月的数据总量15亿+,总数据量40亿+,随着接入的活动越来越多,采集上报的数据量也会越来越大。目前采用ClickHouse来存储数据,可以......
  • clickhouse 优化实践,万级别QPS数据毫秒写入和亿级别数据秒级返回 | 京东云技术团队
    1、背景魔笛活动平台目前在采集每个活动的用户行为数据并进行查询,解决线上问题定位慢,响应不及时的问题,提升客诉的解决效率。目前每天采集的数据量5000万+,一个月的数据总量15亿+,总数据量40亿+,随着接入的活动越来越多,采集上报的数据量也会越来越大。目前采用ClickHouse来存储数据,可......
  • openGauss学习笔记-192 openGauss 数据库运维-常见故障定位案例-XFS文件系统问题
    openGauss学习笔记-192openGauss数据库运维-常见故障定位案例-XFS文件系统问题192.1在XFS文件系统中,使用du命令查询数据文件大小大于文件实际大小192.1.1问题现象在数据库使用过程中,通过如下du命令查询数据文件大小,查询结果大于文件实际的大小。du-shfile192.1.2原因......
  • openGauss学习笔记-193 openGauss 数据库运维-常见故障定位案例-备机卡住-数据库只读
    openGauss学习笔记-193openGauss数据库运维-常见故障定位案例-备机卡住-数据库只读193.1switchover操作时,主机降备卡住193.1.1问题现象一主多备模式下,系统资源不足时,发生switchover,出现主机降备时卡住。193.1.2原因分析当系统资源不足时,无法创建第三方管理线程,导致其管理......
  • Linux创建运维用户和用户组
    在Linux系统中,为了安全和管理的便利性,建议创建专用的运维用户和用户组,而不是直接使用root用户进行操作。以下是创建运维用户和用户组的步骤:创建用户组使用以下命令创建一个名为appworkergroup的用户组:sudogroupaddappworkergroup创建用户接着,创建一个名为appwork......
  • 35道必懂的 Linux 运维面试题
    Linux运维面试题,给大家参考下~1、现在给你三百台服务器,你怎么对他们进行管理?管理3百台服务器的方式:1)设定跳板机,使用统一账号登录,便于安全与登录的考量。2)使用salt、ansiable、puppet进行系统的统一调度与配置的统一管理。3)建立简单的服务器的系统、配置、应用的cmdb信息管理。......
  • 基于FPGA的电子琴设计(按键和蜂鸣器)---第一版---郝旭帅电子设计团队
    本篇为各位朋友介绍基于FPGA的电子琴设计(按键和蜂鸣器)----第一版。功能说明:外部输入七个按键,分别对应音符的“1、2、3、4、5、6、7”,唱作do、re、mi、fa、sol、la、si。当某个按键按下时,蜂鸣器发出对应的声音----1.默认发出0.2秒(可以调整)。2.蜂鸣器发出对应的中音。使用平台:本次设计......
  • MySQL运维实战(2.4) SSL认证在MySQL中的应用
    作者:俊达引言MySQL支持使用TLS协议进行通信,该协议在数据库通信中具有关键作用。首先,TLS能够加密客户端与服务端之间的通信数据,涵盖了客户端发送至服务端的SQL请求以及服务端返回给客户端的数据,从而确保敏感信息的保密性和完整性。除此之外,TLS还允许客户端验证服务端的身份,确保安......
  • 基于Web的智慧充电站可视化大屏运维平台
    前言充电基础设施为电动汽车提供充换电服务,是重要的交通能源融合类基础设施。近年来,随着新能源汽车产业快速发展,我国充电基础设施持续增长,已建成世界上数量最多、服务范围最广、品种类型最全的充电基础设施体系。着眼未来新能源汽车特别是电动汽车快速增长的趋势,充电基础设施仍存在......