• 2024-04-25数据治理之数据质量管理
    一、数据质量概述什么是数据质量数据质量差的危害数据质量维度(数据六大评价标准)什么是数据质量测量数据质量测量必须要有目的数据质量测量必须可重复数据质量测量必须可解释什么是数据质量管理二、数据问题根因分析什么是根因分析为什么要进行根因分析产生数据问题的阶段规划设计
  • 2024-04-17openGauss Slow-Query-Diagnosis-慢SQL根因分析命令参考
    命令参考表1gs_dbmindcomponentslow_query_diagnosis命令行说明参数参数说明取值范围-h,--help帮助命令-action动作参数show:结果展示clean:清理结果diagnosis:交互诊断-c,--conf配置目录---query慢SQL文本*--start-time显示开始时间
  • 2024-04-17openGauss Slow-Query-Diagnosis-慢SQL根因分析使用指导
    使用指导假设用户已经初始化配置文件目录confpath,则可以通过下述命令实现本特性的功能:仅启动慢SQL诊断功能(输出Top3根因),启动命令如下(更多用法参考对service子命令的说明):gs_dbmindservicestart-cconfpath--only-runslow_query_diagnosis用户交互式慢SQL诊断,命令如下
  • 2024-04-17openGauss Slow-Query-Diagnosis-慢SQL根因分析常见问题处理
    常见问题处理如果用户对没有执行过的慢SQL执行交互式诊断命令,则无法给出诊断结果。exporter指标采集功能没有启动时运行慢SQL诊断功能,此时功能无法正常运行。配置文件中的参数重新设置后,需要重新启动服务进程才能生效。使用慢SQL的交互诊断功能时,工具基于RPC和数据采集服务获
  • 2024-04-06Rancher-rke: E0404 14:22:44.616099 5841 memcache.go:287] couldn‘t get resource list for custom.me
    一、根因    1、非正常关闭了主机。    2、导致docker上的metrics容器进程挂掉。二、解决办法    1、重启docker        systemctlrestartdocker    2、清理处于Exited状态的pod        dockerrm`dockerps-a|
  • 2024-04-03openGauss 慢SQL根因分析
    慢SQL根因分析可获得性本特性自openGauss3.0.0开始引入。特性简介慢SQL一直是数据运维中的痛点问题,如何有效诊断慢SQL根因是当前一大难题,工具结合openGauss自身特点融合了现网DBA慢SQL诊断经验,该工具可以支持慢SQL根因15+,能同时按照可能性大小输出多个根因并提供针对性的建议
  • 2024-03-30openGauss 慢SQL根因分析
    慢SQL根因分析可获得性本特性自openGauss3.0.0开始引入。特性简介慢SQL一直是数据运维中的痛点问题,如何有效诊断慢SQL根因是当前一大难题,工具结合openGauss自身特点融合了现网DBA慢SQL诊断经验,该工具可以支持慢SQL根因15+,能同时按照可能性大小输出多个根因并提供针对性的建议
  • 2024-03-28定位时长缩减90%:酷家乐如何提升系统故障根因分析准确率?
    一分钟精华速览酷家乐开发魔方语言的目的是解决其2BSaaS系统在复杂微服务架构下的故障定位难题,以提升系统稳定性并加速故障恢复。由于原监控工具操作复杂,需要人工逐项点击且依赖经验,导致处理效率低下。魔方语言通过自动化根因分析,显著提升了故障处理的覆盖率和准确率,从而减少了
  • 2024-02-07聊聊BUG的根因分析
    这篇文章的灵感,来自前几天技术交流群讨论的内容,也是广大测试同学日常接触最多但也最容易忽视的一点:bug根因分析。bug嘛,一说起来大家都熟,毕竟测试这个岗位,最初的时候,被称为“捉虫者”。软件测试岗位工作的日常,就是执行用例验证开发交付的软件系统是否达标,存在哪些bug,然后提单子并
  • 2023-12-18【LLMOps】vllm加速机制及推理不一致根因剖析
    介绍当前大模型主流推理方式包括:vllm、tgi、原生transformer回顾目前主流大模型都是由transformer演变过来,transformer核心是attention,参考《AttentionisAllYouNeed》 ,attention核心则是3个矩阵:Query、Key、Value。一句话解释attention:Query是当前单词查询矩阵,Key是被查
  • 2023-12-15如何做到人均告警减少 90%?B 站新一代告警平台的设计与实践
    一分钟精华速览B站的业务规模和用户群体不断扩大,对于服务的稳定性和可用性的要求也日益增高。这就需要B站的监控告警系统能够及时、准确地发现和定位问题,以便尽快解决,维护好用户的使用体验。本文是对B站在告警监控系统上的一次重要迭代和优化的详细记录。文章详细阐述了B
  • 2023-11-02用结构化思维解一切BUG(3):实际案例
    背景本文是系列文章《用结构化思维解一切BUG》的第3篇,也是最高潮篇!本系列文章主要介绍一种「无需掌握技术细节,只需结构化思维和常识即可解一切BUG的方法」。在前序文章《用结构化思维解一切BUG(1):核心思路》中,我介绍了本方法的核心思路,即,基于结构化的「假设树」,通过重复多次执行
  • 2023-11-01用结构化思维解一切BUG(2):实践原则
    背景本文是系列文章《用结构化思维解一切BUG》的第二篇。本系列文章主要介绍一种「无需掌握技术细节,只需结构化思维和常识即可解一切BUG的方法」。在前序文章《用结构化思维解一切BUG(1):核心思路》中,我介绍了用结构化思维解BUG的核心思路。即,基于结构化的「假设树」,通过重复多次执
  • 2023-10-15可观测 AIOps 的智能监控和诊断实践丨QCon 全球软件开发大会总结
    作者:董善东(梵登)本文是作者于9月5日在QCon北京2023(全球软件开发大会)上做的《阿里云可观测AIOps的智能监控和诊断实践》专题演讲文字版。大家上午好,很高兴可以在QCon稳定性和可观测的场子来分享阿里云可观测AIOps的智能监控和诊断实践。我是来自阿里云云原生可观测团队
  • 2023-05-16可观测性三支柱?远不止此!
    日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽。byMartinMaoGartner把“可观测性”定义为“监控”的巨大革新,可观测性提供了数字化业务应用、创新速
  • 2023-03-224种API性能恶化根因分析
    摘要:服务发生性能恶化时,需要投入大量人力分析性能异常根因,分析成本高,耗时长。我们提出了一种先在异常调用链内部分析候选根因,再在全局拓扑环境下对候选根因进行汇聚的二级分
  • 2023-02-22从Bug中学习--Bug根因分析法
    来源:http://www.51testing.com/html/31/n-4456831.html一提起测试,大多数人很容易就会联想到Bug。的确,测试的日常工作离不开Bug,测试工作很重要的一部分就是发现Bug。但
  • 2023-02-12.NET技术分享日活动20221022
    2022年10月22日下午,个人组织举办了山东地区的第六次.NET技术分享日活动。围绕.NET、低代码LowCode、云原生CloudNative、大数据、算法等方向进行创新技术的实践分享。
  • 2023-02-01开发小白的高光逆袭:竟然能一眼断定生产环境接口响应时间慢是磁盘性能问题引起的
    01问题背景某接口在测试环境耗时600~700ms左右,但在生产环境耗时在1.4s以上,接口实现逻辑包含数据库操作、文件操作、下游微服务调用和其他业务逻辑计算代码,该如何快速排查?团
  • 2023-01-12从Bug中学习--Bug根因分析法
    来源:http://www.51testing.com/html/31/n-4456831.html一提起测试,大多数人很容易就会联想到Bug。的确,测试的日常工作离不开Bug,测试工作很重要的一部分就是发现Bug。但
  • 2022-12-25哈啰出行高质量故障复盘法:“3+5+3”(附模板)
    #一分钟精华速览#故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之
  • 2022-12-24哈啰出行高质量故障复盘法:“3+5+3”(附模板)
    哈啰出行高质量故障复盘法:“3+5+3”(附模板)原创TakinTalks稳定性社区故障复盘前天16:34阅读数2.6K本文被收录于专区大前端进入专区参与更多专题讨论 
  • 2022-12-22哈啰出行高质量故障复盘法:“3+5+3”(附模板)
    #一分钟精华速览#故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之
  • 2022-12-08技术架构领域的智能感知机会
    对智能感知的定义:更聪明的感知,通过引入新技术、人工智能,做到:感知范围全面,感知波动精细,知道影响根因,能抽象出实际业务架构图...。智能感知关键工作:感知影响范围;感知波动
  • 2022-11-24ONE 2.0应用场景解读 | 如何通过时序拓扑直观还原故障传导链路?
    近年来,随着数字化转型的不断推进,电子商务发展迅速,推动人们的购物行为随之发生转变,在线购物已成为人们的主要购物方式之一。相关数据表明,超过九成的中国网民使用过在线购物平