首页 > 其他分享 >AI - 一文了解AIOps的含义、特点与功用

AI - 一文了解AIOps的含义、特点与功用

时间:2024-08-28 22:15:02浏览次数:16  
标签:分析 运维 AI 功用 团队 数据 AIOps


AIOps定义

AIOps是智能运维(Artificial Intelligence forITOperations)的英文缩写。
当今,专业厂商根据自身理解和商业目的,分别给出了各具特色的AIOps定义。
主要关键字:IT运维、人工智能 (AI)、机器学习(ML)、自然语言处理(NLP)、大数据、数据分析、运营效率等

以下是来自Elastic、IBM、Amazon、RedHat和华为的信息。

### Elastic
AIOps结合大数据和 Machine Learning,将包括异常检测、事件关联以及运营数据采集和处理在内的IT流程实现自动化。
借助AIOps,团队能够大幅减少大规模检测、了解、调查和解决事件所需的时间和精力。
进而,在故障排查期间节省时间便可让IT团队将更多精力投入到更有价值的任务和项目上。


### IBM
AIOps是指应用人工智能 (AI) 技术,例如自然语言处理和机器学习模型,自动执行和简化运营工作流程。
具体而言,智能运维AIOps使用大数据、分析技术和机器学习能力执行以下操作:
- 收集并汇总由多个IT基础架构组件、应用需求与性能监视工具以及服务工单系统持续生成的海量数据
- 智能筛选,从"噪声"中确定"信号",识别与系统性能和可用性问题相关的重要事件和模式。
- 诊断根本原因,并将其报告给IT和DevOps团队,以便他们快速做出响应和采取补救措施,或在某些情况下无需人工干预,可自动解决问题。 
- 通过将多个单独的手动IT运营工具替换为单一的智能自动化IT运营平台,智能运维AIOps使IT运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。
智能运维AIOps可以缩小下面两大对立面之间的差距:
一方面是日益多样化、动态且难以监控的IT环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 
大多数专家都认为智能运维AIOps是IT运营管理的未来形式,而且随着企业日益关注数字化转型计划,这种需求会只增不减。


### Amazon
AIOps用于IT运维的人工智能(AIOps)是指使用人工智能(AI)技术维护IT基础设施的过程。
可以自动执行关键运维任务,例如性能监控、工作负载调度和数据备份。
AIOps技术使用现代机器学习(ML)、自然语言处理(NLP)和其他高级AI 方法来提高IT运营效率。
AIOps技术可以收集和分析许多不同来源的数据,为IT运维提供主动、个性化和实时的见解。


### RedHat
AIOps是用于IT运维的人工智能。
AIOps既是指一种IT运维方法,也是一种集成式软件系统,使用数据科学来增强人工解决问题和通过系统解决问题的能力。
AIOps将大数据与人工智能或机器学习相结合,以增强或部分取代广泛的IT运维流程和任务。


### 华为
AIOps是指利用人工智能(AI)等技术,精准地管控和分析IT系统中的海量运维数据,并通过自动化、智能化的方式来优化运维流程、提高运维效率和运维质量。
AIOps的特点是利用机器学习、深度学习等AI技术,对运维类数据进行分析和处理,从而对运维目标进行健康度评估、智能定位和异常分析,甚至发现潜在问题,提升目标系统的可用性和稳定性。
AIOps将会成为IT运维的重要发展方向,帮助企业更加高效、智能地实现数字化转型。


AIOps的运作与特点

1 - 集成与适配

AIOps工具集与在用的工具和系统进行全面集成和适配,是收集和分析大量原始可观测性数据的必要基础。
通过部署大数据、机器学习和自动化等组件,可以实时提取、聚合和分析大量信息。

2 - 数据汇集

通常使用可扩展的数据平台从复杂的系统环境中汇集所有类型的IT数据:日志文件、配置数据、指标、事件和告警等。

  • 基础架构和网络:网元信息、互联关系、网络流量等
  • 设备系统:日志、状态等
  • 应用程序:应用日志、业务数据、需求数据、痕迹信息
  • 指标和性能:正常运行时间、停机时间、服务级别指标、并发数、响应时间等
  • 实时事件:错误、身份验证尝试、防火墙警报、工单等
  • 历史数据:性能和事件数据
  • ......

3 - 观察与监测

支持和提高可观测性、APM 等功能,使用服务依赖关系映射功能和分布式跟踪,在基础层面上监测多个不同系统的运行状态。
提供直观的可视化视图来查看基础架构、流程、事务流和依赖关系,能够从宏观角度更好地了解系统的运行状态。

4 - 整合分析

使用可跟踪的指标定义运维健康状况,然后将其作为AIOps系统的基线。
梳理IT运营数据,识别重要告警,将信号(即重要的异常事件警报)与噪声(其他数据)分离。
可以识别业务模式并将日志和性能数据中的事件关联起来,感知应用程序和基础架构级别的状态,分析和确定问题的原因,并提出问题解决的建议。

5 - 自动应对与人工参与

通过AIOps简化了诊断和评估工作,减少对传统IT指标和提示的依赖,部分场景下,AIOps可以自动进行响应和处理。
自动将警报和建议的解决方案传送给相应的IT团队,可以根据问题的性质和解决方案来组建响应团队,甚至是在用户意识到问题之前实时解决问题。
专业人员根据机器学习算法生成的分析结果创建自动响应,部署更智能的系统,从历史事件中吸取经验教训,并使用自动化脚本预先防范类似的问题。
因此,对于复杂和全新的问题场景,仍然需要专业人员的参与,AIOps可以辅助进行验证和确认问题解决方案。

技术特点

以下内容来自IBM:

根据Gartner的定义,AIOps产品或平台主要包括以下5类技术要素:
- 数据源:来自各IT基础设施的底层记录数据。
- 大数据平台:用于处理、分析静态和动态实时数据。
- 计算与分析:数据预处理、数据标准化等清洗工作。
- 算法:用于计算和分析,以产生IT运维场景所需的结果。
- 机器学习:包括无监督、有监督和半监督学习。

从整体上看,AIOps的关键能力:基于AI的核心算法、无缝地与IT系统集成、多元数据的整合。
其中,算法是AIOps的核心能力。
当前AIOps算法主要集中在异常检测、预测和根因分析,主要技术趋势如下:
- 异常检测技术:传统领域以有监督算法为主,AIOps领域以有监督和无监督算法结合为主。
- 预测技术:从传统机器学习发展到以LSTM(Long Short Term Memory,长短期记忆)为代表的深度学习。
- 根因分析技术:传统采用关联规则和无监督算法,应用知识图谱算法进行根因分析是新趋势。

AIOps的功用

在人工运维阶段,主要依赖运维专家的工作经验来进行故障分析、定位和排障,整体运维效率不高,且需较长时间的积累。
在自动化运维阶段,运维团队使用脚本、工具等方式执行运维任务,运维效率有了明显提升,但运维团队需要掌握自动化运维工具的开发和迭代,学习难度高。

当今大规模IT系统的运维形势与需求

  • IT系统复杂度和规模不断增长,各种新技术和新架构层出不穷,各类数据爆炸式增长
  • 面对海量数据、不停变化的系统状态、繁多的业务应用和不同的配置参数

在AIOps阶段,通过BigData、ML、AI等技术组件,自动地学习和分析海量运维数据,给出运维决策建议,可增强和部分取代现有运维流程和操作。

  • 缩短故障排查时间:提供事件关联功能,进行根本原因分析,提高服务可用性
  • 打破数据孤岛,提供通用框架聚合多个数据源,提升整体态势感知能力:跨系统、跨团队
  • 自动对事件做出个性化响应:发现和过滤误报,让团队人员更关注于处理关键任务
  • 更积极主动解决IT运营问题:预测可能会出现问题的场景和运维趋势
  • 更妥善地执行IT策略来支持业务决策:不断从数据流中学习和迭代

场景和用例

功能场景

应用程序性能监控(APM)

AIOps作为云基础架构、虚拟化和存储系统的监控工具,大规模收集和编译相关指标,能够报告使用情况、可用性和响应时间等指标。
利用事件关联功能,整合与汇总信息,帮助最终用户更有效地使用信息。

根本原因分析

快速处理大数据,并在多个可能的原因之间建立关联,有效地帮助确定事件的根本原因,而不仅仅是表面症状或提醒。
避免无关和不必要的工作,快速解决核心问题,确定保护措施以防止将来出现类似问题。

异常检测

AIOps工具可以梳理大量历史数据,发现数据集中的非典型数据点,作为感知和预测问题事件的信号
AIOps实时评估和预测偏离监控数据标准分布的异常值,快速检测数据偏差并加快执行纠正措施。
因此,借助AIOps可以减少管理事件期间对系统提醒的依赖,还可以设置基于规则的策略以自动执行补救措施。

云自动化和优化

AIOps可以提供工作负载的透明度、可观测性和自动化,按需预置和扩展计算资源。
通过直观呈现环境中的相互依赖关系,有助于降低云迁移和混合多云环境(私有云、公有云、多个提供商)的运营风险

应用程序开发支持

AIOps工具可以自动地提前进行代码审查,应用编程最佳实践,以及在开发阶段的早期检测错误。
支持DevOps所需的基础架构可视性和自动化功能,而无需完成大量额外的管理工作。

人员用例

AIOps可以帮助团队检测和应对潜在问题,只是让机器完成杂务,而方向盘仍由专业人员操控。
工程师需要具备理解、整合或编写底层AI 脚本能力,能够将事件关联和警报引擎转化为执行引擎。

  • 应用站点可靠性工程师(SRE):定义黄金信号(延迟、错误率、流量和饱和)
  • 开发人员:使用AIOps分析来执行根本原因分析(RCA)
  • 业务负责人:使用AIOps来监控 SRE 所用的黄金信号,从最终用户角度了解应用的性能
  • 运维人员:使用AIOps来监控混合云、多云和基于微服务的IT环境,监控状态,简化运维

概念的区分与联系

AIOps与DevOps

DevOps是一组过程、方法与系统的统称,重视沟通合作的文化、运动或惯例,代表了组织文化的转变。
用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。
精简了开发和运营流程,使得软件生命周期中的构建、测试、发布环节能够更加地快捷、频繁和可靠。
技术上主要通过采用持续集成和持续部署 (CI/CD) 的方式来简化工作,以信息共享弥合开发和支持工作流程之间的差距。

AIOps是一种使用人工智能技术来支持现有IT流程的方法。
AIOps结合了AI 和ML技术来监测和管理各个系统,实现运维过程的智能化,以便更快地解决问题。

DevOps和AIOps都是用于优化软件开发和运维的方法论,都凸显了自动化的益处:消除耗时的人工作业。
DevOps侧重于优化开发和运维之间的协作和自动化,注重软件交付流程的优化,旨在加快软件交付的速度和质量,强调团队合作和持续集成。
AIOps侧重于利用AI和ML等技术来优化运维过程,通过数据分析和推理预测来实现智能化的运维管理,强调实时的故障检测、自动化和智能化的故障处理和资源优化。
通过将AIOps和DevOps结合使用,可让团队查看整个系统的运行情况,而不是专注于特定工具和基础架构层。

  • 持续评估编码质量并缩短软件交付时间
  • 在开发和运维过程中通过将数据分析任务进行自动化来为DevOps流程提供补充
  • 有助于更明智的决策,并主动提醒注意任何问题

AIOps与SRE

站点可靠性工程(SRE)是一种工程团队可用于自动化系统操作和使用软件工具执行检查的方法。
SRE 团队不依赖手动方法,而是通过自动检测和解决问题来改善软件可靠性和客户体验。
AIOps使用业务运营的海量数据和基于机器学习的预测性见解来帮助SRE工程师缩短事件解决时间。

AIOps与MLOps

MLOps框架可帮助软件团队将机器学习模型集成到数字产品中,涉及模型选择和数据准备,包括在生产环境中训练、评估和部署机器学习应用程序的过程。
MLOps的重点是在生产环境中部署、维护和监测模型。这可能包括纳入反馈输入,以重新部署经改进的模型。
AIOps使用ML来提高IT运营的效率,而MLOps则用于实现ML模型部署的标准化。

AIOps与DataOps

借助DataOps计划,组织可优化商业智能应用程序的数据使用情况。
DataOps涉及设置数据管道,数据工程师可以使用这些管道从不同域提取、转换和传输数据,以此支持业务运营。
AIOps使用DataOps提供的信息来检测、分析和解决事件。


总结

AIOps的优势

AIOps面向IT运维,是一个效能性的技术栈和工具集,而非生产性的。
AIOps覆盖了“数据采集 > 数据分析 > 运维决策 > 处理执行 > 异常预测”的运维关键链条,可以帮助运维人员快速发现、精准处理IT系统的异常事件。

  • 更广泛的信息聚合:多信息源、多种类信息
  • 更强的分析:BigData、ML、NLP、AI
  • 更全面的整体维度:对IT环境的全方位了解,跨越系统、部门和团队
  • 更快的反应:缩短MTTR(Mean Time To Repair,平均修复时间)
  • 更主动的行为:主动性运维
  • 更准确的预测:预测性运维
  • 更易理解的展现:统一的信息出口、针对性的信息过滤

AIOps的挑战

没有单一的AIOps工具、AIOps平台或AIOps产品。
因为每个企业和机构的开发和生产环境都有自己的特点和独特之处,构建的任何AIOps解决方案必须能够整合、分析这些各种因素并进行处理。
独立开发和落地能够带来显著效能提升的可用AIOps,需要建立在一定规模和标准的基础之上,并且需要巨大的专业性投入。

  • 专业知识:广泛的数据科学专业知识
  • 基础架构:标准化的平台和功能,针对特定基础架构训练AIOps
  • 价值实现时间:设计、实施、部署和管理的难度大,价值回报周期长
  • 数据:AIOps的结果质量取决于数据源的质量,对运维数据的数量、质量和一致性的要求高
  • 集体协议:为系统健康奠定基础并制定标准运维目标需要多方的广泛支持和共识
  • 环境与范围:涉及因素多,环境变化快,难以建立基线
  • 失败率:AI项目失败率非常高,实现效益难度大

参考信息


标签:分析,运维,AI,功用,团队,数据,AIOps
From: https://www.cnblogs.com/anliven/p/18385619

相关文章

  • 翻译_Clock Domain Crossing Design
    翻译_ClockDomainCrossingDesign原文标题及连接:ClockDomainCrossing(CDC)Design&VerificationTechniquesUsingSystemVerilog.作者:CliffordE.CummingsSunburstDesign,Inc.cliffc@sunburst-design.com摘要在多时钟设计中,需要在时钟域交叉(ClockDomainC......
  • 机器学习新手入门笔记02#AI夏令营#Datawhale X 李宏毅苹果书#夏令营
    机器学习一、线性模型(一)概念把输入的特征x乘上一个权重,再加上一个偏置得到预测的结果,这样的模型称为线性模型(linearmodel)。(二)分段线性曲线(piecewiselinearcurve)局限性:Linearmodelshaveseverelimitation:ModelBias,soweneedamoreflexiblemodel!分段线性曲......
  • 安卓11报错:Failed to resolve: com.github.xxxx:14.0 Show in Project Structure dial
    本篇文章主要讲解,安卓11版本情况下项目运行报错Failedtoresolve:com.github.getActivity:Toaster:14.0ShowinProjectStructuredialogAffectedModules:app的主要原因及解决办法。作者:任聪聪独立博客:https://rccblogs.com/631.html日期:2024年8月28日具体......
  • 聚焦深圳(国际)通用人工智能大会:遨游通讯带来AI“中国风”
    深圳,这座被誉为“中国硅谷”的城市,再次成为全球科技创新的焦点。2024AGIC深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会,以“魅力AI·无限未来”为主题,于2024年8月28-30日在深圳国际会展中心举办。展会首日上午,遨游通讯创始人印海林先生荣任全国首批首席人工智能......
  • 【专题】2024年中国AI人工智能基础数据服务研究报告合集PDF分享(附原数据表)
    原文链接:https://tecdat.cn/?p=37516随着人工智能技术的迅猛发展,AI基础数据服务行业迎来了前所未有的发展机遇。报告合集显示,2023年中国AI基础数据服务市场规模达到45亿元,且未来五年复合增长率有望达到30.4%。多模态大模型、长文本处理能力提升以及大模型小型化技术成为A......
  • 来自OpenAI官网的Function calling介绍与最佳实践
    学习如何将大型语言模型连接到外部工具。介绍函数调用允许您将模型如gpt-4o与外部工具和系统连接起来。这对于许多事情都很有用,比如为AI助手赋能,或者在你的应用程序与模型之间建立深度集成。在2024年8月,我们推出了结构化输出功能。当你在函数定义中通过设置strict:true来开启......
  • 从零开始带你玩转 AI 变现公开课
    在这个数字化时代,AI技术正以前所未有的速度改变着我们的创作与变现方式。小红书,作为年轻人喜爱的社交电商平台,更是为创作者们提供了广阔的舞台。但如何在小红书上利用AI技术实现内容创作与收益转化的双赢?我们的公开课将为你一一揭晓答案!主课程亮点:掌握DALLE模型文生图技巧,创意......
  • 智谱开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行;曝 OpenAI 模型「草莓」今秋
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编......