sre

2024-12-25SRE稳定性建设(故障自愈, 灾备建设), 排查思路示例:服务器故障
排查思路示例:服务器故障口网站服务器崩溃的可能性原因■服务器硬件故障或者系统内核Bug■并发的多线程出现了死锁，或者后端数据库崩溃■存放业务数据变动的磁盘空间耗尽■流量过高，系统超载◆服务器硬件配置过低，正常流量增长下的系统超载◆正常的短暂性流
2024-12-08喜报丨恭贺雅菲奥朗刘峰老师荣获PeopleCert“ITIL和SRE官方大使”及“杰出授课讲师”殊荣
在2024年度PeopleCert中国区合作伙伴大会上，一个令人振奋的消息传来，雅菲奥朗的首席专家刘峰老师荣获PeopleCert颁发的ITIL和SRE官方大使称号，并同时被授予PeopleCert“杰出授课讲师“奖项。这一荣誉不仅是对刘峰老师个人专业能力的认可，也是对他在IT服务管理、SRE/DevOps、AIOps等
2024-12-022024年值得推荐的6款 Vue 后台管理系统模板，开源且免费！
https://www.cnblogs.com/Can-daydayup/p/18579652 思维导航前言适合后端程序员的前端框架vue-element-adminNaiveUiAdminAntDesignVueProArcoDesignProVuevue-pure-adminTDesignVueNextStarter前言在现今的软件开发领域，Vue.js凭借其高效、灵活
2024-09-14Linkedin-SRE-中文教程-二-
LinkedinSRE中文教程（二）原文：SchoolofSRE协议：CCBY-NC-SA4.0一些Python概念原文：https://linkedin.github.io/school-of-sre/level101/python_web/python-concepts/虽然期望您了解python及其基本语法，但是让我们讨论一些基本概念，这将帮助您更好地理解python语言。
2024-09-1013.3 alertmanager分组功能
本节重点介绍:启动3个alert_receive接收端在alertmanager配置文件中编写相关路由prometheus编写rule文件触发告警观察3个接收端5001收到alert_g_15002收到alert_g_25003收到alert_g_1和alert_g_2分组说明alertmanager可以根据设置的路由将告警可以分组处理，发送给对应
2024-08-27SRE 必备知识 - Kafka 探秘之零拷贝技术
如果你了解过Kafka，那么它用到的一个性能优化技术可能会引起你的注意--操作系统的零拷贝（zero-copy）优化。零拷贝操作可以避免对数据的非必要拷贝，当然，并非是说完全没有拷贝。在Kafka的场景下，操作系统可以从pagecache拷贝数据到socketbuffer，直接绕过Kafkabroker这个
2024-08-03如何在kubernetes中抓包原创 NANA SRE运维实践
如何在kubernetes中抓包原创 NANA SRE运维实践如何在kubernetes中抓包原创 NANA SRE运维实践 2024年08月03日01:06 江苏听全文序言随着云原生的落地，k8s使用的人也越来越多了，而在这种环境中，抓包有的时候也是一种纠结的事情。爱意随风起，风止意
2024-07-22智能运维新课程丨雅菲奥朗“可观测性国际认证课程”圆满结束
前言：随着数字化转型的不断深入，企业对于IT系统的运维管理提出了更高的要求。为了帮助企业提升IT运维的可观测性，确保系统的稳定性和安全性，由雅菲奥朗培训中心举办的“可观测性ObservabilityFoundation认证培训”于4月27日-28日成功举办。本次培训吸引了包括星巴克、汉为软件、
2024-07-20开启SRE技术新篇章：SRE Foundation认证培训圆满结课
前言：在技术革新日新月异的今天，SRE系统可靠性已成为企业运营的核心。为了提升企业技术团队的系统稳定性管理能力，雅菲奥朗于2024年6月1日至2日，为浙江移动各地市的学员们举办了“SREFoundation”认证培训。此次培训由资深SRE首席专家刘峰老师主讲，旨在深化学员对SRE理念与实践的
2024-07-12《Google SRE工作手册》系列读书分享之美图SRE团队的「稳定性运营」实践篇二（视频+文字版）
引言本期分享主题是美图SRE团队的稳定性运营实践，本期分享内容为「守」稳住基本盘、Q&A一、「守」稳住基本盘SRE体系建设指南SRE稳定性建设全景图(故障生命周期视角)故障生命周期管理「故障后：故障复盘」故障生命周期管理「故障后：故障报告」故障生命
2024-07-12《Google SRE工作手册》系列读书分享之美图SRE团队的「稳定性运营」实践篇三（视频+文字版）
引言本期分享主题是美图SRE团队的稳定性运营实践，本期分享内容为「攻」规划&运营：3大方向、2个基础、1些探索、小结、Q&A一、3大方向稳定性「监控体系梳理」稳定性「可观测性建设-整体架构」稳定性「监控大盘建设」稳定性「运维元数据+应用拓扑」
2024-07-12《Google SRE工作手册》系列读书分享之多云环境下SRE工程的思考（视频+文字版）
引言本期分享主题是多云环境下SRE工程的思考，本期分享内容为SRE在云上的变革、SRE在云上的思考、云上SRE的未来、云上SRE的福利、Q&A一、SRE在云上的变革-Elastic弹性SiteReliabilityEngineer=SoftwareEngineer+SystemsEnthusiast(Fans)站点可靠性工程师=软件
2024-07-082023首届服务韧性工程（SRE）论坛分会场：数据中心运维的新发展
2023年12月15日，2023首届服务韧性工程（SRE）论坛在杭州成功举行，大会邀请了来自通信、金融、医疗、制造行业等100余位SRE领域专业人士参加，本次大会特别设立了主题为“数据中心运维的新发展”的分会场，由广通优云和SRE专委会联合出品。邀请来自数据中心领域不同行业的产学研用的专家，就
2024-06-11SRE 排障利器，接口请求超时试试 httpstat
夜莺资深用户群有人推荐的一个工具，看了一下真挺好的，也推荐给大家。需求场景A服务调用B服务的HTTP接口，发现B服务返回超时，不确定是网络的问题还是B服务的问题，需要排查。工具简介就类似curl，httpstat也可以请求某个后端，而且可以把各个阶段的耗时都展示出来，包括DNS解
2024-05-06五一假期学习总结：从DevOps到SRE
大家好，我是Edison。五一假期，没出远门，带娃露营玩水玩沙骑平衡车，累的不亦乐乎。同时，也刷了一门极客时间的课程《SRE实战总结》，给我带来了一些新的认知，我将这些认知整理了以下，特此总结分享与你，强烈建议已经实践了DevOps的童鞋了解一下SRE。什么是SRE？SRE全称SiteReliabilityEngi
2024-04-29运维KPI如何考核
一直喜欢养绿萝，这种植物你只要十几天不浇水，就会枯萎。。。等到某天你又把它浇水了，你会发现，立刻就会生机盎然。。。在众多软件职业中，一直以为运维的KPI事最难考核的，所以也谈谈自己的理解。。。运维KPI运维，常人的理解就是一个扛锅的，不停的抗锅，抗的锅也越来越大，抗的锅也越来越
2024-04-21什么是 SRE（站点可靠性工程）
what's sitereliabilityengineer站点可靠性工程（sitereliabilityengineerSRE）是IT运维的软件工程方案。SRE团队使用软件作为工具，来管理系统、解决问题并实现运维任务自动化。SRE执行的任务以前通常由运维团队手动执行，或者交给使用软件和自动化来解决问题和管理生产系统
2024-04-19云原生技术学习路线图初阶+中阶+高阶
一.运维技术栈1.1运维高薪的技术点后端开发涉及到的基础设施技术：docker，k8s，servicemesh,yaml式的声明APICI/CD：jenkins，argo，Tekton,gitlab自动化工具：ansible，shell,ELK微服务：服务网格高薪技术点，重点研究这4个。当然云原生的技术栈内容很多，不可能面面俱到，那就捡重点的进行
2024-04-18写了一个 SRE 调试工具，类似一个小木马
远程操作机器有时会比较麻烦，我写了一个工具，主要功能：1.远程执行命令2.上传下载文件。是一个WebServer，通过HTTP请求来操作机器，类似一个小木马。当然，因为是一个WebServer，所以也提供了打印HTTP请求的能力，方便调试Webhook场景。下面给大家演示一下。安装工具代码放到Gith
2024-04-12SRE 必备利器：域名 DNS 探测排障工具
问题背景访问某个HTTP域名接口，偶发性超时，原因可能多种多样，比如DNS解析问题、网络质量问题、对端服务负载问题等，在客户端没有良好埋点的情况下，排查起来比较费劲，只能挨个方向尝试，这里送大家一个小工具，可以快速采样DNS解析延迟，快速确认是否是DNS解析问题。使用演示运行工
2024-04-09【稳定性】浅谈团队如何做好系统稳定性
背景稳定性建设需要一系列具体的建设活动推进和落地，这些建设活动涉及人员、机制和文化，全方位的建设活动才能更好地落实建设模式。一、稳定性保障机制稳定性涉及团队所有不同水平技术人员、所有系统、研发所有环节、线上时时刻刻，单个技术人员是无法保障好的，必须建立团队流程机
2024-02-06SRE故障总结
在网络上关于SRE的讨论中，故障相关的内容比比皆是，但关于故障发生时的应急处理过程的详细讨论却寥寥无几。然而面对故障，故障指挥官一定面临着较大的压力，需要快速、正确地处置故障，应对内外部的挑战。在这篇文章中，我们将重点探讨故障指挥官在故障处理过程中的具体行动思路。值得注意
2024-01-27生产环境出现 bug 自动生成异常追踪-SRE与开发自动化协同
作者：观测云数据智能部产品方案架构师范莹莹简介生产环境bug的定义：RUM应用和APM应用的 error_stack 信息被捕捉后成为bug。以APM新增错误巡检为例，当出现新错误时，在观测云控制台的「事件」模块下生成新的事件报告，捕捉为bug。同时利用 DatafluxFunc 创建异常追踪，