- 2024-11-10SRE云计算运维之基础篇二:权限管理,VIM工具,文件查询及shell基础
目录文件权限管理访问控制列表ACLVIM的使用及内容查询文本三剑客基本正则和扩展正则shell脚本之变量简单总结一下linux中的权限1.首先介绍一下关于linux中的用户:Linux中每个用户是通过UserId(UID)来唯一标识的,且Linux中可以将一个或多个用户加入用户组中,用户组是通过G
- 2024-10-26云计算运维-SRE基础篇之安装VMware
一、首先简单总结计算机发展相关历史,详细总结服务器硬件和计算机分类相关知识。计算机发展简史早期计算工具:从古至今,人类使用过多种计算工具,如算盘、计算尺等。这些工具为后来的机械计算器奠定了基础。机械计算机时代(17世纪-19世纪):随着技术的发展,出现了更加复杂的机械装置来完
- 2024-10-18架构师之路-学渣到学霸历程-21
云计算-SRE架构师的想法篇:刚完成了第一阶段的学习,暂停一下,思索着明天继续分享第二阶段的内容,因此也就发表一下想法;仅仅是个人的理解;或许有错,或许有不妥,仅仅代表目前现在我的想法了;1.想法:今晚其实也很克制自己了,想着要回来进行一个分享;我思索了很久,应不应该继续分享第二
- 2024-09-14Linkedin-SRE-中文教程-二-
LinkedinSRE中文教程(二)原文:SchoolofSRE协议:CCBY-NC-SA4.0一些Python概念原文:https://linkedin.github.io/school-of-sre/level101/python_web/python-concepts/虽然期望您了解python及其基本语法,但是让我们讨论一些基本概念,这将帮助您更好地理解python语言。
- 2024-09-1013.3 alertmanager分组功能
本节重点介绍:启动3个alert_receive接收端在alertmanager配置文件中编写相关路由prometheus编写rule文件触发告警观察3个接收端5001收到alert_g_15002收到alert_g_25003收到alert_g_1和alert_g_2分组说明alertmanager可以根据设置的路由将告警可以分组处理,发送给对应
- 2024-08-27SRE 必备知识 - Kafka 探秘之零拷贝技术
如果你了解过Kafka,那么它用到的一个性能优化技术可能会引起你的注意--操作系统的零拷贝(zero-copy)优化。零拷贝操作可以避免对数据的非必要拷贝,当然,并非是说完全没有拷贝。在Kafka的场景下,操作系统可以从pagecache拷贝数据到socketbuffer,直接绕过Kafkabroker这个
- 2024-08-03如何在kubernetes中抓包 原创 NANA SRE运维实践
如何在kubernetes中抓包原创 NANA SRE运维实践如何在kubernetes中抓包原创 NANA SRE运维实践 2024年08月03日01:06 江苏 听全文序言 随着云原生的落地,k8s使用的人也越来越多了,而在这种环境中,抓包有的时候也是一种纠结的事情。 爱意随风起,风止意
- 2024-07-22智能运维新课程丨雅菲奥朗“可观测性国际认证课程”圆满结束
前言:随着数字化转型的不断深入,企业对于IT系统的运维管理提出了更高的要求。为了帮助企业提升IT运维的可观测性,确保系统的稳定性和安全性,由雅菲奥朗培训中心举办的“可观测性ObservabilityFoundation认证培训”于4月27日-28日成功举办。本次培训吸引了包括星巴克、汉为软件、
- 2024-07-20开启SRE技术新篇章:SRE Foundation认证培训圆满结课
前言:在技术革新日新月异的今天,SRE系统可靠性已成为企业运营的核心。为了提升企业技术团队的系统稳定性管理能力,雅菲奥朗于2024年6月1日至2日,为浙江移动各地市的学员们举办了“SREFoundation”认证培训。此次培训由资深SRE首席专家刘峰老师主讲,旨在深化学员对SRE理念与实践的
- 2024-07-12《Google SRE工作手册》系列读书分享之 美图SRE团队的「稳定性运营」实践篇二(视频+文字版)
引言本期分享主题是美图SRE团队的稳定性运营实践,本期分享内容为「守」稳住基本盘、Q&A一、「守」稳住基本盘SRE体系建设指南SRE稳定性建设全景图(故障生命周期视角)故障生命周期管理「故障后:故障复盘」故障生命周期管理「故障后:故障报告」故障生命
- 2024-07-12《Google SRE工作手册》系列读书分享之 美图SRE团队的「稳定性运营」实践篇三(视频+文字版)
引言本期分享主题是美图SRE团队的稳定性运营实践,本期分享内容为「攻」规划&运营:3大方向、2个基础、1些探索、小结、Q&A一、3大方向稳定性「监控体系梳理」稳定性「可观测性建设-整体架构」稳定性「监控大盘建设」稳定性「运维元数据+应用拓扑」
- 2024-07-12《Google SRE工作手册》系列读书分享之 多云环境下SRE工程的思考(视频+文字版)
引言本期分享主题是多云环境下SRE工程的思考,本期分享内容为SRE在云上的变革、SRE在云上的思考、云上SRE的未来、云上SRE的福利、Q&A一、SRE在云上的变革-Elastic弹性SiteReliabilityEngineer=SoftwareEngineer+SystemsEnthusiast(Fans)站点可靠性工程师=软件
- 2024-07-082023首届服务韧性工程(SRE)论坛分会场:数据中心运维的新发展
2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举行,大会邀请了来自通信、金融、医疗、制造行业等100余位SRE领域专业人士参加,本次大会特别设立了主题为“数据中心运维的新发展”的分会场,由广通优云和SRE专委会联合出品。邀请来自数据中心领域不同行业的产学研用的专家,就
- 2024-06-11SRE 排障利器,接口请求超时试试 httpstat
夜莺资深用户群有人推荐的一个工具,看了一下真挺好的,也推荐给大家。需求场景A服务调用B服务的HTTP接口,发现B服务返回超时,不确定是网络的问题还是B服务的问题,需要排查。工具简介就类似curl,httpstat也可以请求某个后端,而且可以把各个阶段的耗时都展示出来,包括DNS解
- 2024-05-06五一假期学习总结:从DevOps到SRE
大家好,我是Edison。五一假期,没出远门,带娃露营玩水玩沙骑平衡车,累的不亦乐乎。同时,也刷了一门极客时间的课程《SRE实战总结》,给我带来了一些新的认知,我将这些认知整理了以下,特此总结分享与你,强烈建议已经实践了DevOps的童鞋了解一下SRE。什么是SRE?SRE全称SiteReliabilityEngi
- 2024-04-29运维KPI如何考核
一直喜欢养绿萝,这种植物你只要十几天不浇水,就会枯萎。。。等到某天你又把它浇水了,你会发现,立刻就会生机盎然。。。在众多软件职业中,一直以为运维的KPI事最难考核的,所以也谈谈自己的理解。。。运维KPI运维,常人的理解就是一个扛锅的,不停的抗锅,抗的锅也越来越大,抗的锅也越来越
- 2024-04-21什么是 SRE(站点可靠性工程)
what's sitereliabilityengineer站点可靠性工程(sitereliabilityengineerSRE)是IT运维的软件工程方案。SRE团队使用软件作为工具,来管理系统、解决问题并实现运维任务自动化。SRE执行的任务以前通常由运维团队手动执行,或者交给使用软件和自动化来解决问题和管理生产系统
- 2024-04-19云原生技术学习路线图 初阶+中阶+高阶
一.运维技术栈1.1运维高薪的技术点后端开发涉及到的基础设施技术:docker,k8s,servicemesh,yaml式的声明APICI/CD:jenkins,argo,Tekton,gitlab自动化工具:ansible,shell,ELK微服务:服务网格高薪技术点,重点研究这4个。当然云原生的技术栈内容很多,不可能面面俱到,那就捡重点的进行
- 2024-04-18写了一个 SRE 调试工具,类似一个小木马
远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令2.上传下载文件。是一个WebServer,通过HTTP请求来操作机器,类似一个小木马。当然,因为是一个WebServer,所以也提供了打印HTTP请求的能力,方便调试Webhook场景。下面给大家演示一下。安装工具代码放到Gith
- 2024-04-12SRE 必备利器:域名 DNS 探测排障工具
问题背景访问某个HTTP域名接口,偶发性超时,原因可能多种多样,比如DNS解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样DNS解析延迟,快速确认是否是DNS解析问题。使用演示运行工
- 2024-04-09【稳定性】浅谈团队如何做好系统稳定性
背景稳定性建设需要一系列具体的建设活动推进和落地,这些建设活动涉及人员、机制和文化,全方位的建设活动才能更好地落实建设模式。一、稳定性保障机制稳定性涉及团队所有不同水平技术人员、所有系统、研发所有环节、线上时时刻刻,单个技术人员是无法保障好的,必须建立团队流程机
- 2024-02-06SRE故障总结
在网络上关于SRE的讨论中,故障相关的内容比比皆是,但关于故障发生时的应急处理过程的详细讨论却寥寥无几。然而面对故障,故障指挥官一定面临着较大的压力,需要快速、正确地处置故障,应对内外部的挑战。在这篇文章中,我们将重点探讨故障指挥官在故障处理过程中的具体行动思路。值得注意
- 2024-01-27生产环境出现 bug 自动生成异常追踪-SRE与开发自动化协同
作者:观测云数据智能部产品方案架构师范莹莹简介生产环境bug的定义:RUM应用和APM应用的 error_stack 信息被捕捉后成为bug。以APM新增错误巡检为例,当出现新错误时,在观测云控制台的「事件」模块下生成新的事件报告,捕捉为bug。同时利用 DatafluxFunc 创建异常追踪,
- 2024-01-26使用aigc进行运维SRE岗面试
原文链接:百度SRE岗面试复盘SRE岗面试复盘-K8S篇SRE岗面试复盘-可观测性篇SRE岗面试复盘(外企篇)SRE岗面试复盘(某Top私募量化)经验方案微服务应用迁移到Kubernetes,流量如何接入切换?微服务架构迁移Kubernetes,主要做了哪些工作,中间有遇到什么难点?image-2024
- 2024-01-19像 Google SRE 一样 OnCall
在GoogleSRE的著作《Google运维解密》(原作名:SiteReliabilityEngineering:HowGoogleRunsProductionSystems)中,GoogleSRE的关键成员们几乎不惜用了三个章节的篇幅描述了在Google他们是如何OnCall的。GoogleSRE实践中,有一个广为人知的理念:减少琐事,用软件工程的方