• 2024-07-01AIOps学习路线
    1.初级学习目标 (参考资料:《AIOps企业实践白皮书》)1.1了解AIOps的基本概念及应用场景;故障治理,包括故障检测、故障定位、故障自愈和故障预测等;效率提升,包括智能变更、智能问答、智能决策、容量预测等;成本管理,包括成本优化、资源优化、容量规划、性能优化等;1.2.掌握Py
  • 2024-07-01从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用
    一、引言在信息技术飞速发展的今天,运维工作已经从最初的人工操作,逐步演变为自动化、AIOps(人工智能运维)和ChatOps(通过聊天的方式去运维)。这些变革不仅提升了运维效率,还显著保障了系统的稳定性。特别是借助大模型,运维同学能够更加高效地完成工作,并应对复杂的运维挑战。本文将依次介
  • 2024-06-07一文搞懂DevOps、DataOps、MLOps、AIOps:所有“Ops”的比较
    引言近年来,“Ops”一词在IT运维领域的使用迅速增加。IT运维正在向自动化过程转变,以改善客户交付。传统的应用程序开发采用DevOps实施持续集成(CI)和持续部署(CD)。但对于数据密集型的机器学习和人工智能(AI)应用,精确的交付和部署过程可能并不适用。本文将定义不同的“Ops”并解释
  • 2024-05-30各种“Ops“的对比:DevOps vs. DataOps vs. MLOps vs. AIOps
    文章目录0.前言1.DevOps2.DataOps3.MLOps4.AIOps5.总结6.参考0.前言近年来,缩略词“Ops”在IT运营领域中迅速普及,反映了该领域的一系列重要变革。传统的IT操作正在向自动化流程转变,以更高效地改善客户交付。这种转变旨在减少人为干预,增加操作的一致性
  • 2024-03-25学习 AIops 智能运维平台
    AIOps(ArtificialIntelligenceforITOperations),即智能运维,是将人工智能的能力与运维相结合,通过机器学习的方法来提升运维效率。在传统的自动化运维体系中,重复性运维工作的人力成本和效率问题得到了有效解决。但在复杂场景下的故障处理、变更管理、容量管理、服务资源过程中,仍
  • 2024-03-13AIOps 智能运维:有没有比专家经验更优雅的错/慢调用分析工具?
    作者:图杨工程师小A刚刚接手他们公司最核心的电商系统的运维工作,小A发现,在生产环境中,系统明明运行得非常稳定,但是总会出现一些“诡异”的情况。比如:偶尔会一些错误调用,但是,还没来得及修,系统又莫名奇妙地恢复正常。应用的平均响应时间很短,但是总会有一些响应时间非常长的离
  • 2024-01-27Part 3:为什么 NetOps 是通往 AIOps 的桥梁
    转载网络运营(或NetOps)团队,传统上使用性能监控工具来管理企业网络的运行状况和性能。然而,网络使用量的增长加上分散的网络部署,导致许多人寻求替代的性能监控方法,包括使用人工智能进行IT运营(AIOps)。本文比较了NetOps实践中的传统性能监控方法,并讨论了团队最终转向采用AIOps的原
  • 2023-10-25博睿动态|GOPS全球运维大会2023上海站即将开启!
    10月26日,博睿数据将应邀出席第二十一届GOPS全球运维大会,大会为期2天,侧重方向是DevOps、BizDevOps、AIOps、DevSecOps、云原生、效能度量等技术领域。博睿数据AIOps首席专家兼产品总监贺安辉受邀出席10月26日的AIOps最佳实践及解决方案专场,并将在下午15:30-16:00分享《开源工具和
  • 2023-10-15可观测 AIOps 的智能监控和诊断实践丨QCon 全球软件开发大会总结
    作者:董善东(梵登)本文是作者于9月5日在QCon北京2023(全球软件开发大会)上做的《阿里云可观测AIOps的智能监控和诊断实践》专题演讲文字版。大家上午好,很高兴可以在QCon稳定性和可观测的场子来分享阿里云可观测AIOps的智能监控和诊断实践。我是来自阿里云云原生可观测团队
  • 2023-09-28基于AIOps实现智慧园区极简IT运维
    随着物联网、云平台、大数据、人工智能等技术的发展,并逐步投入到智慧园区的建设,传统园区数字化转型加快。园区的形式包括产业园区、教育园区、制造业园区、科研园区、社区等等,园区形态不断演进和发展,园区网承载的对象和业务也越来越多。业务种类爆炸性增长,业务变更愈加频繁,网络运
  • 2023-09-13浪潮信息InManage,再获Gartner数据中心智能运维标杆
    近期,国际权威研究机构高德纳(Gartner)发布中国AIOps市场指南报告《MarketGuideforAIOps,China》,报告从数据中心运维需求变化、技术影响等角度,为中国的组织和I&O领导在采用或推进AIOps提供了深刻见解和实施建议。其中,浪潮信息InManage作为唯一的一款服务器厂商软件产品,凭借领先的A
  • 2023-08-23突破成本困局:B站FinOps经验与案例分享
    云成本优化(FinOps)一词,变得越来越流行。在GoogleTrends上,“FinOps”关键字的搜索量在2019年到2023年的四年间增长了410倍。在国外,有18000多人把FinOps技能列在了自己的LinkedIn简历里。CNCF发布的云原生2023年趋势预测报告中,10个热点趋势中有4个与FinOps相关,分别是FinOps、GreenOps
  • 2023-04-12论文解析 -- AIOps- A Multivocal Literature Review
    这篇综述是基于ASystematicMappingStudyinAIOps的基础上的补充和更新。除了论文,还涵盖greyliterature(e.g.,blogposts,videos,andwhitepapers) ,所以称MultivocalOurworkwillcomplementtheworkperformedbytheseauthorsaddingalsoinsightsfromgre
  • 2023-04-12论文解析 -- A Systematic Mapping Study in AIOps
    AIOPS论文的综述如何挑选论文,如何选取keywords 搜索的3个论文库, Weselectthreeonlinesearchdatabasesthatareappropriateforthescopeofinvestigation:IEEEXplore,ACMDigitalLibraryandarXiv. 对于挑选出的论文进行分类,分类标准是,targetcomponents
  • 2023-04-12AIOPS开源项目概览
     StudyingtheCharacteristicsofAIOpsProjectsonGitHub 该论文研究AIOps开源项目的情况,直接看结论,使用语言,主要python,其次是java 输入的数据可以看出AIOPS主要是针对监控数据,这个本身很直觉  使用算法经典的ML算法占了一半,说明当前落地的AIOPS项目仍
  • 2023-02-13 提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇(二))
    作者:张宪波、张静、李东江如何提高IT运维效率是众多运维人员的难题,这不仅是对内容繁杂、持续变化、支持不同的业务需求加以描述、加载和维护,更要对运维和业务运维需求、过程
  • 2023-02-13 提高IT运维效率,深度解读京东云AIOps落地实践(异常检测篇(二))
    作者:张宪波、张静、李东江如何提高IT运维效率是众多运维人员的难题,这不仅是对内容繁杂、持续变化、支持不同的业务需求加以描述、加载和维护,更要对运维和业务运维需求、过程
  • 2023-01-28【如何提高IT运维效率】深度解读京东云基于NLP的运维日志异常检测AIOps落地实践
    作者:京东科技 张宪波、张静、李东江基于NLP技术对运维日志聚类,从日志角度快速发现线上业务问题日志在IT行业中被广泛使用,日志的异常检测对于识别系统的运行状态至关重
  • 2023-01-28【如何提高IT运维效率】深度解读京东云基于自然语言处理的运维日志异常检测AIOps落地实践
    作者:京东科技 张宪波、张静、李东江基于NLP技术对运维日志聚类,从日志角度快速发现线上业务问题日志在IT行业中被广泛使用,日志的异常检测对于识别系统的运行状态至关重要。
  • 2022-11-26浅谈DevOps和AIOps
    DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。它是一种重视“
  • 2022-11-24优维科技CTO访谈实录:“大场景+小算法”构建AiOps运维技术哲学
    智能运维、自动化运维发展到现在,已经有将近7成的IT管理者学会利用大数据、人工智能产品及解决方案赋能团队,在生产效率、适应性和决策能力等层面实现了切实有效的正向转型。
  • 2022-11-1406-运维领域实践
    云原生基础设施云原生并不是一个单纯的技术,更是一种思想,是技术、企业管理方法的集合云原生基础设施为技术创新和流程改进提供了核心支撑平台核心能力:依托于容器的一致性
  • 2022-11-01京东云开发者|提高IT运维效率,深度解读京东云AIOps落地实践
    基于深度学习对运维时序指标进行异常检测,快速发现线上业务问题时间序列的异常检测是实际应用中的一个关键问题,尤其是在IT行业。我们没有采用传统的基于阈值的方法来实现异
  • 2022-09-29和运维工程师聊完,发现小丑竟是我自己
    运维是干什么的?是机房巡检、是打杂、是网管、是维修......千人千面,但似乎总带着偏见或是傲慢。运维有入行门槛吗?需要哪些技术与狠活?运维工程师需要写代码吗?996吗?会忙到头秃